公務員期刊網(wǎng) 精選范文 大數(shù)據(jù)時代的定義與特點范文

大數(shù)據(jù)時代的定義與特點精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的大數(shù)據(jù)時代的定義與特點主題范文,僅供參考,歡迎閱讀并收藏。

大數(shù)據(jù)時代的定義與特點

第1篇:大數(shù)據(jù)時代的定義與特點范文

關(guān)于大數(shù)據(jù),就目前而言仍然沒有一個確切的、大家公認的界定,不同機構(gòu)有不同定義,麥肯錫的定義:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行采集、存儲、管理和分析的數(shù)據(jù)集合。維基百科定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊。無論哪種定義,我們可以看出大數(shù)據(jù)并不是一種新的產(chǎn)品也不是一種新的技術(shù),只是數(shù)字化時代出現(xiàn)的一種現(xiàn)象。大數(shù)據(jù)意味著包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)?;驈碗s程度超出了常用技術(shù),按照合理的成本和時限捕捉、管理及處理這些數(shù)據(jù)集的能力。大數(shù)據(jù)時代的數(shù)據(jù)存在著多源異構(gòu)、分布廣泛、動態(tài)增長、先有數(shù)據(jù)后有模式等特點。人們正被數(shù)據(jù)洪流所包圍,在大數(shù)據(jù)時代,正確利用大數(shù)據(jù)給人們的生活帶來了極大的便利,同樣使得大數(shù)據(jù)時代的數(shù)據(jù)管理面臨著新的挑戰(zhàn)。在大數(shù)據(jù)時代,大數(shù)據(jù)的價值利用以及大數(shù)據(jù)技術(shù)的運用在各行各業(yè)都逐漸得以充分的體現(xiàn),在高校中,大數(shù)據(jù)和數(shù)據(jù)分析的價值更是可以充分體現(xiàn),高校的大學生思想政治教育工作已經(jīng)具備了大數(shù)據(jù)的特征。如:大學生每天使用的交流網(wǎng)絡平臺,每天都會產(chǎn)生由文字、照片、視頻、對話等構(gòu)成的海量信息。

二、大學生思想政治教育有效性內(nèi)涵理解

大學生思想政治教育是一個系統(tǒng)工程,任何一個層面的問題可能都不是表面所呈現(xiàn)的那樣僅僅屬于該層面,很可能與更深層的問題相關(guān)聯(lián)。大學生思想政治教育面對現(xiàn)代化、市場化。全球化與和諧社會建設的嶄新境遇,直接表現(xiàn)就是思想政治教育有效性的弱化。何為“有效性”?“有效”是指能“能實現(xiàn)預期目標”。作為一種價值屬性的體現(xiàn),有效性是指特定實踐活動及其結(jié)果在相應價值關(guān)系中所表現(xiàn)出來的相應功能或功效。那么什么是“大學生思想政治教育有效性”?縱觀思想政治教育理論和實際工作者孜孜以求的探索,大學生思想政治教育有效性的本質(zhì)體現(xiàn)的是大學生思想政治教育這一實踐活動本身及其結(jié)果所具有滿足主體需求的功能屬性,即全面提高大學生思想政治素質(zhì)的功能屬性[1]。

三、大數(shù)據(jù)時代下大學生思想政治教育有效性提升的路徑

首先樹立大學生思想政治教育大數(shù)據(jù)觀念

第2篇:大數(shù)據(jù)時代的定義與特點范文

(遼寧師范大學檔案館,遼寧 大連 116029)

【摘要】本文在深刻解讀大數(shù)內(nèi)涵的基礎上,結(jié)合高校檔案信息資源特點,分析大數(shù)據(jù)對高校檔案工作者理念、檔案資源建設、檔案信息安全及檔案利用服務等方面的影響,提出在大數(shù)據(jù)時代,高校檔案工作應該樹立全歸檔意識、構(gòu)建檔案信息資源數(shù)據(jù)集、建設檔案信息安全體系、挖掘檔案信息大資源,推行個性化定制化檔案信息服務等應對策略。

關(guān)鍵詞 大數(shù)據(jù);高校檔案;影響分析;對策研究

基金項目:本文為2014年度遼寧省檔案局科技項目“大數(shù)據(jù)時代高校檔案信息資源多元采集研究”(L-2014-R-12)的階段性成果之一。

作者簡介:寧燕子,研究方向為檔案信息化建設。

大數(shù)據(jù)時代的到來改變了傳統(tǒng)的IT架構(gòu)與數(shù)據(jù)存儲和利用機構(gòu),必然也將對作為儲存信息知識、提供信息服務的高校檔案館形成沖擊與挑戰(zhàn)。因此,深刻理解大數(shù)據(jù)的內(nèi)涵,結(jié)合高校檔案信息資源的特點,分析大數(shù)據(jù)對檔案工作者理念的影響、對檔案信息資源建設、檔案信息安全及檔案利用服務的影響,對高校檔案館面對大數(shù)據(jù)尋求應對與發(fā)展對策有著重要意義。

1大數(shù)據(jù)概述

近年來,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術(shù)的深入發(fā)展,以及智能終端、社交網(wǎng)絡、數(shù)字地球等信息體的普及和建設,海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)己經(jīng)充斥在人們?nèi)粘I畹拿總€角落,并且每天還在以驚人的速度進行爆炸式的增長。美國互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)指出,全球數(shù)據(jù)量已由2005年的0.15ZB增長到2010年的1.2ZB。預計未來10年,全球數(shù)據(jù)量將以40%+的速度增長,2020年全球數(shù)據(jù)量將達到35ZB,人類正在逐漸步入一個大數(shù)據(jù)時代。

1.1大數(shù)據(jù)定義

目前,大數(shù)據(jù)并沒有形成一個統(tǒng)一的定義。研究機構(gòu)Gartner的定義:大數(shù)據(jù)是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。維基百科的定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊。麥肯錫的定義:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行采集、存儲、管理和分析的數(shù)據(jù)集合。IDC將大數(shù)據(jù)定義為:為更經(jīng)濟地從高頻率的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值而設計的新一代架構(gòu)和技術(shù)。信息專家涂子沛在著作《大數(shù)據(jù)》中認為:“大數(shù)據(jù)”之“大”,并不僅僅指“容量大”,更大的意義在于通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。從以上幾種定義,我們可以看出,大數(shù)據(jù)是信息時代出現(xiàn)的一種現(xiàn)象,一種理念,一種處理技術(shù)。

1.2大數(shù)據(jù)特征

和大數(shù)據(jù)的定義不同,對大數(shù)據(jù)的特點業(yè)界有比較統(tǒng)一的認識。即大數(shù)據(jù)的4“V”特征。第一,數(shù)據(jù)體量巨大(Volume)。從TB級別,躍升到PB級別。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。第二,數(shù)據(jù)類型繁多(Variety)。隨著傳感器種類的增多以及智能設備、社交網(wǎng)絡等的流行,數(shù)據(jù)類型也變得更加復雜,不僅包括傳統(tǒng)的關(guān)系數(shù)據(jù)類型,也包括以網(wǎng)頁、視頻、音頻、E-mail、文檔等形式存在的未加工的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。第三,價值密度低(Value)。數(shù)據(jù)量呈指數(shù)增長的同時,隱藏在海量數(shù)據(jù)的有用信息卻沒有相應比例增長,反而使我們獲取有用信息的難度加大。以視頻為例,連續(xù)的監(jiān)控過程,可能有用的數(shù)據(jù)僅有一兩秒。第四,流動速度快(Velocity)。形成流式數(shù)據(jù)是大數(shù)據(jù)的重要特征,數(shù)據(jù)流動的速度快到難以用傳統(tǒng)的系統(tǒng)去處理。大數(shù)據(jù)的“4V”特征表明其不僅僅是數(shù)據(jù)海量,對于大數(shù)據(jù)的分析將更加復雜、更追求速度、更注重實效。

2高校檔案信息資源呈現(xiàn)的特點分析

2.1檔案數(shù)量龐大,增長迅速

遼寧師范大學是一所省屬重點師范類院校,學校全日制在校生人數(shù)規(guī)模在22000人左右,在職教職工人數(shù)約為1800人。以遼寧師范大學為例,學校檔案館館藏檔案總量是66286卷(件),其中綜合檔案41913卷。近4年,綜合檔案年入館量以平均每年12.5%速度增長。截至2013年6月21日,全國普通高等學校(不含獨立學院)共計2198所。各高校檔案館檔案資源總和近億卷,堪稱海量。2011-2014年,遼寧師范大學綜合檔案入館數(shù)量統(tǒng)計結(jié)果見表1。

2.2檔案種類繁多,載體類型多樣

高校檔案是高等院校內(nèi)部組織和個人在教學、科研、管理以及其它各項活動中直接形成的、對高校和社會有保存價值的文字、圖表、聲像等不同記錄方式和各種載體形態(tài)的歷史記錄。高校檔案具有形成主體多樣性,形成領(lǐng)域廣泛性的特點,因此形成了高校檔案信息資源種類繁多、載體記錄方式和載體形態(tài)多樣性的局面。如,遼寧師范大學檔案館集中統(tǒng)一保管12類檔案:黨群類、行政類、教學類、科研類、基本建設類、出版物類、外事類、財會類、聲像類、實物類、教職工人事類和學生類。高校檔案的載體類型多樣,除傳統(tǒng)的紙張外,還有以感光材料為載體的檔案,如縮微檔案;以磁性材料為載體的檔案,如錄音帶、錄像帶、幻燈片等;以磁、光、電為介質(zhì),通過計算機等設備閱讀的檔案,如,電子文檔、光盤數(shù)據(jù)庫等;以數(shù)據(jù)庫和網(wǎng)絡為基礎,以計算機主機硬盤、光盤為介質(zhì)的檔案,如網(wǎng)絡信息、網(wǎng)站、網(wǎng)頁等。

2.3檔案數(shù)據(jù)資源豐富。

近年來,隨著高校校園信息化工作的推進,高校在檔案信息化工作方面的投入也在不斷加大,數(shù)字檔案館就是檔案信息化的成果之一。檔案信息化的一個基礎工作是檔案信息資源的數(shù)字化,即館藏檔案目錄數(shù)字化,館藏檔案全文數(shù)字化,電子文檔收集。據(jù)統(tǒng)計截止2010年10月15日,上海交通大學檔案館館藏檔案全文數(shù)字化總量為3667404頁,數(shù)字化信息資源約為2PB。一所高校的檔案數(shù)據(jù)資源已經(jīng)達到PB級別??上攵?,全國2000多所高校的檔案數(shù)據(jù)資源總量相當可觀,內(nèi)容相當豐富。

3大數(shù)據(jù)給高校檔案工作帶來的影響

3.1大數(shù)據(jù)對高校檔案工作者理念的影響

大數(shù)據(jù)帶給檔案工作的最大影響是對檔案工作者思維理念的沖擊。維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時代》中明確指出,大數(shù)據(jù)時代最大的轉(zhuǎn)變就是,放棄對因果關(guān)系的渴求,而取而代之關(guān)注相關(guān)關(guān)系。傳統(tǒng)的邏輯性思維,考慮的是因為什么,所以必須怎樣,即由因到果的關(guān)系。而大數(shù)據(jù)思維只需要知道“是什么”,而不需要知道“為什么”。這顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰(zhàn)。大數(shù)據(jù)時代的到來,將從多個方面變革傳統(tǒng)的檔案思維模式。管理思維上,將推動檔案館從經(jīng)驗驅(qū)動到循數(shù)管理的轉(zhuǎn)變,用數(shù)據(jù)說話;服務思維上,檔案館的服務理念將實現(xiàn)從供給導向到需求導向的轉(zhuǎn)變,實現(xiàn)從資源密集型服務到服務主導型的轉(zhuǎn)變;業(yè)務思維上,從追尋“因果律”走向?qū)徱暋跋嚓P(guān)性”,從出現(xiàn)問題——邏輯分析——找出因果關(guān)系——提出解決方案的逆向思維模式,到收集數(shù)據(jù)——量化分析——找出相互關(guān)系——提出優(yōu)化方案的正向思維模式轉(zhuǎn)變。

3.2大數(shù)據(jù)對檔案信息資源建設的影響

迫于物質(zhì)和技術(shù)條件限制,在小數(shù)據(jù)時代我們無法對產(chǎn)生的所有成果(檔案)全部歸檔和保存,因而有必要制定一個歸檔范圍,即確定哪些要歸檔保存,哪些不需要歸檔保存;同時對歸檔保存的信息和數(shù)據(jù)要根據(jù)其價值確定不同的保管期限以節(jié)省人力和物力資源。近20年來,隨著移動互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)等新興技術(shù)的蓬勃發(fā)展和廣泛應用,以及各種傳感器的無所不在,信息技術(shù)已經(jīng)可以將一切“數(shù)據(jù)化”。在過去的50年中,數(shù)字存儲成本大約每兩年就削減一半,而存儲密度則增加了5000萬倍。在大數(shù)據(jù)背景下,“一切歸檔”的目標已經(jīng)具備了較為成熟的技術(shù)條件和物質(zhì)基礎。大數(shù)據(jù)時代,檔案概念呈泛化趨勢,“每一條記錄都將變成具有長期保存價值的檔案,這些單位價值密度低的記錄信息將作為不可分割的整體來發(fā)揮檔案的價值”?!耙磺芯哂斜4鎯r值的文件、數(shù)據(jù)、視頻、實物都將視為檔案,基于信息系統(tǒng)的電子文件在形成之后‘一秒鐘’即形成‘電子檔案’”。

3.3大數(shù)據(jù)對檔案信息安全的影響

數(shù)據(jù)安全的問題一直是信息安全的重要內(nèi)容,信息安全業(yè)界對于數(shù)據(jù)安全的探討從來沒有減少過,大數(shù)據(jù)時代的到來讓業(yè)內(nèi)人士更加不確定。據(jù)報道,對全球200個安全權(quán)威專家調(diào)查表明:40%的專家無法處理所收集到的海量安全數(shù)據(jù);35%的專家沒有足夠的時間或?qū)I(yè)人員來分析他們收集的安全數(shù)據(jù)和信息。這些數(shù)字也更能直觀地說明在大數(shù)據(jù)時代,安全面臨的挑戰(zhàn)十分嚴峻。EMC信息安全事業(yè)部RSA公司的信息安全專家胡軍認為,安全是一個基礎的問題,數(shù)據(jù)價值越大,數(shù)據(jù)的量越大,安全面臨的風險就越大。大數(shù)據(jù)是信息化發(fā)展到一定階段的必然結(jié)果,大數(shù)據(jù)時代檔案信息資源的一個基本特征就是檔案信息的大規(guī)模數(shù)字化。數(shù)字化檔案信息具有以下特點:(1)對軟硬件系統(tǒng)的依賴性。技術(shù)的更新、軟硬件設備的升級可能會導致原有的信息無法識別。(2)存儲的高密度性。數(shù)字化檔案信息存儲的高密度性在我們節(jié)約館藏空間,擴大館藏容量的同時,也對載體的保護提出了更嚴格的要求,因為任何一條輕微的劃痕都有可能導致數(shù)以千計的檔案信息遭到破壞。(3)信息與載體之間的可分離性。數(shù)字化檔案信息可以以非實體形式進行加工和管理,這種可分離性造成了數(shù)字化檔案信息的易于更改、易于復制、自由流動、易于傳輸。

3.4大數(shù)據(jù)對檔案利用服務的影響

《大數(shù)據(jù)時代》的作者維克托·邁爾·舍恩伯格認為,“大量的數(shù)據(jù)能夠讓傳統(tǒng)行業(yè)更好地了解客戶需求,提供個性化的服務。定制化服務的關(guān)鍵是數(shù)據(jù)”。大數(shù)據(jù)時代,高校檔案服務方式將發(fā)生變革,檔案利用效率將大幅提升。大數(shù)據(jù)時代的檔案利用不同于傳統(tǒng)的“你來我找”的被動式服務,也不僅是利用現(xiàn)代信息技術(shù)進行制作、加工、傳播、轉(zhuǎn)換和二次開發(fā)。而是要通過對檔案信息資源挖掘、用戶信息和用戶需求進行分析、關(guān)系洞察及趨勢預測,開展基于海量檔案數(shù)據(jù)和先進技術(shù)分析的全息檔案資源的相關(guān)性研究,從而實現(xiàn)檔案信息資源與用戶需求的雙向理想控制。大數(shù)據(jù)時代高校檔案館會更多地開展主動推介式個性化服務。

4大數(shù)據(jù)時代高校檔案工作的對策

4.1樹立全歸檔意識

所謂全歸檔,包括三個方面的含義,一是接收,做到應收盡收。高校檔案的收集范圍應該涵蓋管理、教學、科研、教輔、后勤保障等所有校內(nèi)單位。內(nèi)容上要注意公文與業(yè)務材料并重,不可偏頗。檔案類型上既要做到傳統(tǒng)的紙質(zhì)檔案與電子文檔并存,同時兼顧圖片、錄音、錄像、實物、數(shù)據(jù)庫、多媒體、網(wǎng)頁等多種類型。檔案的“收”要做到全流程控制,將檔案管理融入到學校辦公自動化系統(tǒng)、教學管理、行政管理、學生管理等系統(tǒng)中,將文件、數(shù)據(jù)歸檔流程寫入發(fā)文環(huán)節(jié)、教學環(huán)節(jié)、管理環(huán)節(jié)等,抓好文檔的前端控制。二是征集,做到用開放的心態(tài)面向全社會征集一切和學校相關(guān)的史料和實物。重點征集對象為學校老領(lǐng)導、老教授,學校知名校友。三是采集,采集網(wǎng)絡信息資源和用戶需求信息。高校的內(nèi)部機構(gòu)都建設有自己的門戶網(wǎng)站,這些網(wǎng)站上了大量的教學、科研、管理、對外交流等形式多樣的信息資源,高校檔案館要積極主動采集有保存價值的信息。另外高校檔案館還要采集用戶基本信息和用戶需求信息,以備對其進行分析,從而提供個性化服務。在大數(shù)據(jù)背景下傳統(tǒng)的檔案資源建設思想發(fā)生不小的變化,即我們已經(jīng)不再需要確定一個歸檔范圍,不再需要對其價值進行人為的鑒定和加注標簽。我們所要做的就是將所有的真實的記錄全部歸檔,減少人為的影響,保存檔案的原貌,還原檔案的真實,從而構(gòu)建一個基于互聯(lián)網(wǎng)的,以檔案數(shù)字資源為主體,以文本、圖片、音視頻等為形式的高校記憶數(shù)字資源庫。

4.2構(gòu)建檔案信息資源大數(shù)據(jù)集

檔案數(shù)字化是大數(shù)據(jù)時代必要的基礎性建設,也是發(fā)揮高校檔案館潛在價值的重要臺階,緊抓大數(shù)據(jù)戰(zhàn)略的契機,實現(xiàn)檔案數(shù)字化建設跨越式發(fā)展,對高校檔案館而言,具有重要意義。具體需要做以下工作:結(jié)合高校檔案資源特點和工作實際,(1)研究制定高校檔案館館藏檔案數(shù)字化實施方案,全面啟動檔案數(shù)字化工作;(2)研究制定高校檔案館數(shù)字化建設實施方案,啟動數(shù)字檔案館建設;(3)研究制定高校檔案館紙質(zhì)檔案數(shù)字化的規(guī)范和標準;(4)研究制定高校電子文檔移交與接收辦法;(5)運用云技術(shù)創(chuàng)建檔案大數(shù)據(jù)基礎架構(gòu),讓檔案大數(shù)據(jù)在這個平臺上運行;(6)運用云技術(shù)構(gòu)建高校檔案信息資源的大數(shù)據(jù)集。

4.3建設檔案信息安全體系

大數(shù)據(jù)時代,高校檔案館的數(shù)字化館藏和虛擬館藏的比例會大大提高,檔案安全管理的重心要向數(shù)字化館藏和虛擬館藏方向傾斜。要確保數(shù)字化檔案信息內(nèi)容的真實性、完整性、機密性和長期可用性。高校檔案館必須建立健全人防、物防、技防三位一體的檔案信息安全防范體系。具體的安全保障措施包括以下幾個方面:(1)加大對數(shù)字化檔案信息安全法規(guī)的理論研究;(2)制定高校數(shù)字化檔案信息安全解決方案;(3)購買優(yōu)質(zhì)的硬件設備并在運行過程中加強管理和維護,確??茖W使用;(4)采用先進的網(wǎng)絡安全技術(shù)和數(shù)據(jù)安全技術(shù)等多種現(xiàn)代信息新技術(shù)。如訪問控制技術(shù)、防治病毒技術(shù)和安全檢測技術(shù)、密碼技術(shù)、備份技術(shù)、仿真、遷移、再生性技術(shù)、簽署技術(shù)、消息認證技術(shù)、防寫技術(shù)以及數(shù)字水印技術(shù)等;(5)使用正版軟件,增強安全意識并做到及時升級,及時打補丁,同時檢查系統(tǒng)的各項設置;(6)數(shù)據(jù)結(jié)構(gòu)化;(7)加固網(wǎng)絡層端點的數(shù)據(jù)安全;(8)檔案信息數(shù)據(jù)庫異地存儲;(9)提高檔案從業(yè)人員的信息素養(yǎng)和職業(yè)道德意識。

4.4挖掘檔案信息大資源,推行個性化定制化檔案信息服務

高校檔案館擁有海量的檔案數(shù)據(jù),同時掌握了豐富的傳統(tǒng)信息資源管理經(jīng)驗,是大數(shù)據(jù)時代的“資本擁有者”,然而這些數(shù)據(jù)目前只有極少部分得到了有效開發(fā)。如何從海量原始檔案數(shù)據(jù)中發(fā)掘出有價值的信息和知識,滿足不同檔案用戶的信息需求,將成為高校檔案館的一項重要工作。高校檔案館要綜合運用數(shù)據(jù)挖掘、數(shù)理統(tǒng)計、機器學習、智能算法及云計算技術(shù)對檔案信息數(shù)據(jù)進行分析。具體流程如下:(1)制定針對不同服務對象和服務需求的服務目標;(2)采集用戶基本信息和用戶利用習慣信息,分析用戶檢索行為,建立用戶信息庫;(3)依據(jù)用戶潛在的檔案信息需求分析結(jié)果,檢索館藏檔案資源信息及網(wǎng)絡信息數(shù)據(jù);(4)運用數(shù)據(jù)分析技術(shù)在智能數(shù)據(jù)處理平臺上對檢索出的數(shù)據(jù)進行過濾、整合、分析;(5)利用數(shù)據(jù)可視化技術(shù)和人機交互技術(shù),對檔案信息數(shù)據(jù)進行解釋,借助高校檔案門戶網(wǎng)站、移動終端等多種手段檔案信息。

參考文獻

[1]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學學報,2014(6):954-972.

[2]中國教育部批準的高等學校名單、新批準的學校名單[OL]. moe.gov.cn /publicfiles/business/htmlfiles/moe/moe_229/201306/153565.html.

[3][英]維克托·邁爾·舍恩伯格,肯尼思.庫克耶.大數(shù)據(jù)時代[M].浙江人民出版社,2013(1).

第3篇:大數(shù)據(jù)時代的定義與特點范文

關(guān)鍵詞:大數(shù)據(jù);信息服務;圖書館

大數(shù)據(jù)已成為2012年以來的研究熱點。大數(shù)據(jù)被稱為"碎片中的智慧",被視為驅(qū)動新一輪技術(shù)革命的關(guān)鍵力量,它正在顯現(xiàn)出巨大的價值。根據(jù)麥肯錫咨詢公司測算,大數(shù)據(jù)每年可為美國醫(yī)療服務業(yè)節(jié)省3000億美元,使零售業(yè)凈利潤增長60%,幫助制造業(yè)在產(chǎn)品研發(fā)、組裝等環(huán)節(jié)降低50%的成本。美國將大數(shù)據(jù)定義為"未來的新石油", 全球500強企業(yè)中90%以上的重要決策都取決于深入的數(shù)據(jù)挖掘和分析。大數(shù)據(jù)已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領(lǐng)域,成為重要的生產(chǎn)因素。并隨著近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。

本文在大數(shù)據(jù)的時代背景下,探討了大數(shù)據(jù)的基本內(nèi)涵與特征,它給醫(yī)院圖書館帶來的挑戰(zhàn),以及通過對大數(shù)據(jù)在醫(yī)院圖書館信息服務方面的應用,期望能夠為未來的醫(yī)院圖書館信息服務創(chuàng)新體系提供一些參考。

1大數(shù)據(jù)的內(nèi)涵與特征

1.1大數(shù)據(jù)的內(nèi)涵 大數(shù)據(jù)目前還沒有統(tǒng)一的定義。維基百科定義大數(shù)據(jù)為巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的信息。

1.2大數(shù)據(jù)的特征 大數(shù)據(jù)的特征歸納為4個"V"。①數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;②數(shù)據(jù)類型繁多。網(wǎng)絡日志、視頻、圖片、地理位置信息等等。③處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。④只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個"V"--Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。

2大數(shù)據(jù)與圖書館

依據(jù)大數(shù)據(jù)定義,單體圖書館數(shù)據(jù)總量雖然還沒有達到PB級,但從圖書館存儲數(shù)據(jù)種類和數(shù)量以及未來發(fā)展趨勢上來說,已經(jīng)初步具備了大數(shù)據(jù)基本特征。圖書館除了館藏的圖書、期刊、論文等紙質(zhì)資源外,還擁有大量的數(shù)據(jù)庫資源、多媒體資源、電子圖書、電子文檔,還有圖書館管理系統(tǒng)信息。此外,伴隨著平板電腦、智能手機等移動設備以及社交網(wǎng)絡的出現(xiàn),移動終端用戶行為和服務等非結(jié)構(gòu)化數(shù)據(jù)量逐年增加[1]。

2010年底,國家圖書館數(shù)字資源已達到480 TB,到"十二五"末,國家圖書館數(shù)字資源總量要達到1000 TB,每個省級數(shù)字圖書館可用數(shù)字資源量將達100 TB,每個市級數(shù)字圖書館可用數(shù)字資源量達30 TB,每個縣級數(shù)字圖書館可用數(shù)字資源量達4 TB。文化共享工程將建設"公共文化數(shù)字資源基礎庫群",資源總量達到530 TB。

3大數(shù)據(jù)環(huán)境下對醫(yī)院圖書館信息服務的挑戰(zhàn)

當前數(shù)字時代,醫(yī)院數(shù)字圖書館結(jié)構(gòu)化資源內(nèi)容豐富,結(jié)構(gòu)完整,包括電子圖書、電子期刊、電子報紙、數(shù)據(jù)庫、網(wǎng)絡資源在內(nèi)的海量數(shù)字資源。非結(jié)構(gòu)化數(shù)據(jù)如聲音、視頻、音頻、圖片等可視可聽的數(shù)據(jù),因為信息技術(shù)原因以及不夠重視而缺乏。圖書館在此結(jié)構(gòu)化資源基礎上盡力實現(xiàn)用戶的最大滿意和最大程度利用。但在大數(shù)據(jù)時代,醫(yī)學信息量以指數(shù)的態(tài)勢增長。要求醫(yī)院圖書館對醫(yī)療專業(yè)部門的支撐越來越強,醫(yī)務工作者沒有足夠的時間和精力查詢相關(guān)專業(yè)資訊,這就要求圖書館對醫(yī)學專業(yè)具有較強的支撐能力,能夠在浩如煙海的信息中找到最有效的信息,乃至參與醫(yī)療決策[2]。

4大數(shù)據(jù)環(huán)境下醫(yī)院圖書館信息服務

大數(shù)據(jù)時代要求醫(yī)院圖書館信息服務將向數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移,利用大量的結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)去挖掘讀者行為,預測和分析讀者的興趣和潛在需求,從而主動的為用戶提供個性化、精準化的信息服務。

4.1提供主動的、有針對 醫(yī)院圖書館的服務對象主要可以分為:臨床醫(yī)護人員、醫(yī)技人員、科研人員、行政管理人員和進修生、實習生人員。顯然,各類用戶群對信息的需求差異很大,同一類用戶群中因為層次不同,信息需求也存在較大差異。通過大數(shù)據(jù)平臺的挖掘分析,區(qū)分開用戶群,然后針對不同用戶群開展不同層次的服務。醫(yī)療科研人員的學科專業(yè)性非常明顯,信息需求主要集中在與專業(yè)領(lǐng)域緊密相關(guān)的生物醫(yī)學文獻上,不同專業(yè)的用戶需求差異明顯,而相同專業(yè)的用戶具有相近的興趣度,根據(jù)其相似性,可以得出某一時期某一學科的科研熱點,以及該領(lǐng)域的研究進展,實時動態(tài)地為他們提供專屬信息,提高文獻推送效率,使醫(yī)療科研人員更快地洞察最新的科研走向。

4.2提供個性化、精準化服務 在大數(shù)據(jù)時代,用戶面對眾多數(shù)據(jù)資源,深受大數(shù)據(jù)所帶來的困擾,很難方便、快捷、準確地檢索到所需數(shù)據(jù)資料。圖書館可通過大數(shù)據(jù)分析平臺對每個用戶的檢索關(guān)鍵詞、瀏覽歷史、下載數(shù)據(jù)、流量數(shù)據(jù)、讀者留言、新書推薦以及其博客、微博、移動圖書館等各種社交媒體產(chǎn)生的交互信息的分析,挖掘每個用戶的隱性信息需求,發(fā)現(xiàn)并預測其信息需求特點以及趨勢,針對每個用戶提供精準的、個性化的信息,以提高每個用戶獲取信息的速度和深度。

5加強大數(shù)據(jù)人才培養(yǎng)

大數(shù)據(jù)時代對醫(yī)院圖書館工作提出了更高的信息服務標準,要求醫(yī)院圖書館不但能夠通過結(jié)構(gòu)化數(shù)據(jù)了解現(xiàn)在醫(yī)療科研人員需要什么服務,也能夠利用非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)深度挖掘預測和分析將來會發(fā)生什么。美國研究圖書館協(xié)會提出,研究數(shù)據(jù)管理是下一代圖書館員的能力之一。研究型生物醫(yī)學專業(yè)圖書館應盡快引進或培養(yǎng)一支大數(shù)據(jù)管理專業(yè)隊伍。當前的任務是如何在現(xiàn)有基礎上,拓寬館員知識面,增強業(yè)務能力,使之成為大數(shù)據(jù)知識服務信息資源的組織者、傳播者、導航者和教育者[3]。

6對用戶隱私的保護

大數(shù)據(jù)收集了用戶的個人信息、搜索歷史、地理位置等大量信息,很可能威脅到用戶的隱私,讓用戶有知情權(quán),個人數(shù)據(jù)保存期限和用途將有用戶自行設置,這樣既解除了用戶的顧慮,圖書館又能合法的利用數(shù)據(jù),在不暴露用戶個人隱私的前提下為醫(yī)療科研人員提供優(yōu)質(zhì)的個性化服務。

7結(jié)論

大數(shù)據(jù)技術(shù)將有力推動醫(yī)學信息服務向更深層次和更廣范圍拓展。醫(yī)學圖書館員必須抓住發(fā)展機遇,不斷提升核心競爭力,利用大數(shù)據(jù)創(chuàng)新信息服務,滿足醫(yī)療科研人員日益增長的信息需求。

參考文獻:

[1]王捷.大數(shù)據(jù)時代下圖書館開展信息服務的對策[J].現(xiàn)代情報,2013,33(3):81-83.

第4篇:大數(shù)據(jù)時代的定義與特點范文

大數(shù)據(jù),作為一種數(shù)據(jù)管理的理念和方式,其之所以出現(xiàn),是云計算和物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,與人類社會所積累的數(shù)據(jù)高速增長并海量積累相結(jié)合的結(jié)果。無論是如何定義,從本質(zhì)上,大數(shù)據(jù)是信息管理者在當今的信息技術(shù)條件下,為解決新的海量信息處理需求,所提出的解決策略。而作為典型的信息管理活動之一的檔案事業(yè),勢必會受到大數(shù)據(jù)理念的影響。

大數(shù)據(jù)并不是一個嚴謹而完整的學術(shù)概念,其所包含的內(nèi)容相對比較抽象,從字面意義上進行理解,大數(shù)據(jù)所指的是數(shù)據(jù)規(guī)模的龐大。但從這一意義上來看,顯然無法與傳統(tǒng)的以往一系列概念進行區(qū)別,如“海量數(shù)據(jù)”(Massive Data)、“超大規(guī)模數(shù)據(jù)”(Very Large Data)。在學術(shù)界,對于大數(shù)據(jù)的定義尚未形成統(tǒng)一的觀點,但綜合各種說法,主流的思路是從大數(shù)據(jù)的特征出發(fā),通過歸納的方式,通過對特征的描述進行定義。其中最有代表性的是3V定義[1],即認為大數(shù)據(jù)需滿足3個特點:規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。此外在實踐層面,普遍認為大數(shù)據(jù)具有全數(shù)據(jù)規(guī)模、多數(shù)據(jù)類型、低價值密度、高處理速度的特點。

在數(shù)據(jù)管理理念層面,大數(shù)據(jù)的特點在于全數(shù)據(jù)規(guī)模、豐富的數(shù)據(jù)類型(可能包含半結(jié)構(gòu)化數(shù)據(jù))、全數(shù)據(jù)處理對象、多數(shù)據(jù)處理工具;在數(shù)據(jù)處理技術(shù)層面,大數(shù)據(jù)體現(xiàn)為對云計算和新一代數(shù)據(jù)庫的應用;在操作方式層面,大數(shù)據(jù)體現(xiàn)為對零散信息價值的重視及對數(shù)據(jù)之間相關(guān)而非因果關(guān)系的分析。

二、大數(shù)據(jù)對檔案工作帶來的機遇

(一)解決信息化背景下檔案的“脹庫”問題

近年來,隨著電子文件的理念逐步得到認可,以及檔案的單位管理成本的降低,加之人們對于歸檔保存的重要性的認識的提升,我國的檔案總量步入了一個高速增長的時期[2],但與此同時,信息化背景下的檔案數(shù)據(jù)庫脹庫問題也隨之到來了,其中較為明顯的表現(xiàn)為“新增數(shù)據(jù)失敗”等[3],脹庫問題帶來的,不僅僅對新增檔案管理上的難題,同樣重要的是,由于脹庫現(xiàn)象的出現(xiàn),檔案的服務利用的效率將大打折扣,其原因在于案卷在出現(xiàn)脹庫的過程中,無法及時有效地歸檔并建立索引以提供服務,破壞了檔案案卷之間的連續(xù)性和關(guān)聯(lián)性,降低了檔案中所提供的信息的價值。信息化背景下檔案的“脹庫”問題,本質(zhì)上在于存儲和計算資源分配的不夠合理,傳統(tǒng)的數(shù)據(jù)庫架構(gòu)在處理新的海量數(shù)據(jù)的過程中,靈活性遠遠不夠。解決這一問題,需要求助于大數(shù)據(jù)技術(shù)框架中的云計算技術(shù)[4],利用云計算技術(shù)強大的調(diào)配計算資源的能力,根據(jù)數(shù)據(jù)處理規(guī)模的需要,配置數(shù)字化檔案管理所需要的存儲和計算資源,保證檔案的服務利用效率。

(二)有利于推動社會檔案觀的普及

大數(shù)據(jù)的核心在于從海量的數(shù)據(jù)中挖掘價值[5],這為檔案價值的進一步發(fā)現(xiàn)和提升,提供了一個新的思路。傳統(tǒng)的檔案服務利用概念中,檔案的服務利用對象是特定并且相對單一的,原因在于檔案通過卷宗的形式,將一個相對完整的信息“包裹”存留,這部分相對完整的信息最終成為了檔案卷宗的主題。而在服務利用的過程中,“主題匹配”成為了最為常見的檔案定位方式,而主要來自于政府機關(guān)、企事業(yè)單位的日常運行信息形成的檔案,其主題自然會牢牢地與其形成機關(guān)的業(yè)務活動相對應,而檔案卷宗中所包含的零散的信息價值,相對容易被忽略,如今被公眾廣泛利用的檔案,多數(shù)是民生檔案[6],而其他類型檔案中的零散信息價值,缺乏有效的挖掘服務利用手段,這是社會檔案觀在普及過程中必須解決的問題之一,即如何幫助公眾挖掘他們所關(guān)心的分散于海量檔案中的信息價值。大數(shù)據(jù)為檔案的服務利用提供了新的價值挖掘工具,使得分散在海量數(shù)據(jù)中的零散價值成為可能,這就意味借助大數(shù)據(jù)的信息分析工具,公眾將能夠從主題上看上去并不相關(guān)的眾多檔案中,發(fā)掘其自身所需要的信息,獲取相應的信息價值,將推動公眾逐漸意識到檔案作為當今社會最重要的信息價值載體之一的重要意義,而一旦這樣的意識逐步成型,檔案社會觀將得到普遍的認可。

(三)有利于處理多載體類型的檔案

信息技術(shù)的發(fā)展對于檔案管理工作的重要影響之一,就是提供了多樣化的信息載體形式,豐富了檔案的類型,從最原始的紙質(zhì)載體的文書檔案,發(fā)展到如今的音像檔案、圖片等等。而隨著電子文件概念不斷獲得認可,新的信息載體形式層出不窮,從理論上講,每當出現(xiàn)一種新的信息載體形式,就會相對應地出現(xiàn)該載體形式的檔案。這就意味著未來檔案的管理工作必將是基于多載體的,其載體的豐富程度可能會遠遠超過我們的預期,而為最大程度保證原始證據(jù)價值,在技術(shù)條件允許的前提下,未來的檔案管理工作將會嘗試接受半結(jié)構(gòu)化的數(shù)據(jù)作為檔案,以最大程度地保留證據(jù)價值[7]。這使得未來的檔案載體形式將呈現(xiàn)數(shù)量多、增長快的特點,這就要求針對具體檔案類型的管理工具,或者抽象為一類特定的數(shù)據(jù)處理工具,是無法實現(xiàn)“One size fit all”的,即不再存在能夠完美處理所有的檔案載體類型的管理工具。這一點上與大數(shù)據(jù)對處理多數(shù)據(jù)類型過程中所提出的數(shù)據(jù)工具組合的理念,是相一致的。未來的檔案服務利用活動,由于其面向的檔案對象的載體是多樣的,對其進行利用的工具也將是多樣的,甚至為處理一些半結(jié)構(gòu)化的數(shù)據(jù)的過程中,可能會需要多種數(shù)據(jù)處理工具的組合。

(四)有利于電子文件的管理

大數(shù)據(jù)將從真實性、有效性、及時性三個方面提升電子文件的管理水平。首先從真實性角度考慮,由于電子文件驚人的增長速度,其真實性鑒定工作一直是困擾檔案工作者的難題之一,傳統(tǒng)的“直接鑒定法”在實際操作的過程中所消耗的人力物力成本過于巨大[8],因此鑒定文件的真實性需要求助于大數(shù)據(jù)技術(shù)處理海量數(shù)據(jù)并分析復雜數(shù)據(jù)的能力;第二,從有效性角度考慮,電子文件的結(jié)構(gòu)化特征并不明顯,大量的電子文件都是半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的,在這種數(shù)據(jù)類型情況并不穩(wěn)定的前提下,處理數(shù)據(jù)對象單一的傳統(tǒng)檔案管理數(shù)據(jù)庫結(jié)構(gòu)是難于駕馭的,而大數(shù)據(jù)技術(shù)框架下對于多數(shù)據(jù)結(jié)構(gòu)的兼容性,能夠較好地解決這一問題,提升對電子文件進行管理的有效性;第三,從及時性的角度考慮,電子文件的指數(shù)增長,使得及時地對新增檔案進行管理成為了檔案工作者所面臨的一大難題,這樣的海量數(shù)據(jù)的實時處理,是檔案管理過程中前所未有的,這需要利用大數(shù)據(jù)技術(shù)框架中通過云計算的方式提升數(shù)據(jù)處理的及時性,才能保證電子文件管理的及時性。

三、大數(shù)據(jù)背景下檔案工作的發(fā)展趨勢

(一)從數(shù)字化到數(shù)據(jù)化

為應對信息時代對于檔案工作新要求,檔案數(shù)字化的工作已經(jīng)進行了多年,并在一定程度上解決了傳統(tǒng)檔案利用信息技術(shù)進行管理及共享的問題[9],收到了相當?shù)某尚?。但在大?shù)據(jù)時代背景下,數(shù)字化僅僅是解決了載體形式或者說是信息技術(shù)的應用問題,可以理解為檔案工作對信息技術(shù)的適應性應用,對于深入的數(shù)據(jù)挖掘與利用是遠遠不夠的。在大數(shù)據(jù)的時代背景下,信息管理者已經(jīng)不再滿足于更易管理和共享的信息形式,應更為關(guān)注信息所能帶來的價值,這就要求對于檔案的管理工作框架,需要實現(xiàn)從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變,即不僅僅能夠?qū)崿F(xiàn)對檔案案卷的數(shù)字化管理,更能夠根據(jù)海量數(shù)據(jù)挖掘利用的需要,對檔案的管理深入到數(shù)據(jù)層面,這將更為適合大數(shù)據(jù)技術(shù)架構(gòu)下對數(shù)據(jù)的“流處理”模式。

(二)從信息共享到信息價值共享

隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)的應用進入了一個全新的階段,所有的信息管理者都面臨著同樣一個問題:將簡單而直接的信息共享活動轉(zhuǎn)換為更為高級的信息價值的共享,即需要對自身所掌握的信息的價值有清晰的掌握和準確的理解,對應到檔案工作者的現(xiàn)狀上,即檔案工作者僅僅了解自己在管理哪些檔案并提供服務利用,已經(jīng)無法適應大數(shù)據(jù)時代對檔案服務利用的要求了,而需要能夠了解自己所掌握的檔案能做什么,所提供的檔案利用服務所實現(xiàn)的是什么功能,也就是要明確所掌握的檔案的價值。這需要對檔案利用服務的認識有更加深入的認識,在大數(shù)據(jù)時代的背景下,由于對信息價值提取效率的提升,對于信息價值的共享將成為所有信息服務利用的主流趨勢,這對檔案服務利用工作將是全新的挑戰(zhàn),這不僅僅要求能夠靈活地運用大數(shù)據(jù)技術(shù)在整合檔案數(shù)據(jù)的基礎上挖掘其中蘊含的價值,更加需要檔案工作者對于信息價值有著更為敏感的“嗅覺”。

四、大數(shù)據(jù)對檔案工作帶來的挑戰(zhàn)

(一)如何嵌入數(shù)據(jù)挖掘環(huán)節(jié)

傳統(tǒng)的檔案管理活動,最為通行的說法是包含收集、整理、保管、鑒定、統(tǒng)計和提供利用六個主要環(huán)節(jié),這六個環(huán)節(jié)組成了基本的檔案管理活動,并組成了一次完整的信息從收集到提供利用的過程。在大數(shù)據(jù)的時代背景下,對于檔案管理活動提出了新的要求,即主動地挖掘其中的價值并提供利用服務,這就涉及到一個流程嵌入的問題,即數(shù)據(jù)挖掘環(huán)節(jié)應該通過什么樣的方式嵌入到檔案管理活動中來,是作為一個單獨的環(huán)節(jié)嵌入到檔案的管理流程之中,還是在傳統(tǒng)的檔案管理活動的某一環(huán)節(jié)中實現(xiàn)數(shù)據(jù)挖掘的功能,直接關(guān)系到檔案管理活動流程的合理性。數(shù)據(jù)挖掘的嵌入問題,當檔案事業(yè)逐步步入電子文件時代之后,必須要解決的問題。

(二)如何保障檔案信息的安全性

大數(shù)據(jù)對于檔案信息的共享程度提出了更高的要求,只有在檔案資源高度共享的情況下,大數(shù)據(jù)技術(shù)框架下的云計算平臺才能發(fā)揮作用,真正實現(xiàn)檔案信息價值的利用。但隨之而來,就是檔案信息的安全性問題,如何解決在多類型、多結(jié)構(gòu)、高共享程度狀態(tài)下的數(shù)據(jù)安全問題,已經(jīng)顯得十分棘手。工作人員操作失誤、設備及網(wǎng)絡故障、計算機病毒、網(wǎng)絡黑客攻擊等對檔案信息安全構(gòu)成威脅的因素,在大數(shù)據(jù)的技術(shù)框架下,所造成的威脅可能會被相應地放大。大數(shù)據(jù)時代的檔案信息的保密工作,其重心很有可能不再是保密體制的設計,而更有可能是信息安全技術(shù)的有效應用。

第5篇:大數(shù)據(jù)時代的定義與特點范文

進入21 世紀,人類在信息存儲和處理能力方面不斷涌現(xiàn)技術(shù)性的突破,大數(shù)據(jù)(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù)。大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。大數(shù)據(jù)時代的到來,各行各業(yè)都面臨著對龐大而復雜的數(shù)據(jù)進行有效管理的巨大挑戰(zhàn),人們越來越認識到對自身產(chǎn)生和擁有的大數(shù)據(jù)進行有效管理的重要性和迫切性,災害檔案數(shù)據(jù)管理也不例外。隨著計算機技術(shù)和網(wǎng)絡通訊技術(shù)的飛速發(fā)展,災害管理信息化程度不斷提高,災害檔案數(shù)字化、網(wǎng)絡化管理已成為網(wǎng)絡信息時代檔案管理工作的必然選擇。面對洶涌而來的大數(shù)據(jù),災害檔案數(shù)據(jù)管理工作如何應對,是擺在我們面前一個亟需研究的課題。

一、大數(shù)據(jù)的概念

關(guān)于大數(shù)據(jù)的定義,最早提出“大數(shù)據(jù)”時代到來的全球知名咨詢公司麥肯錫稱:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行采集、存儲、管理和分析的數(shù)據(jù)集合。維基百科的定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊。還有學者認為大數(shù)據(jù)指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[1]??梢钥闯觯髷?shù)據(jù)由海量交易數(shù)據(jù)、海量交互數(shù)據(jù)和海量數(shù)據(jù)處理三大主要的技術(shù)趨勢匯聚而成[2]。

從本質(zhì)上看,大數(shù)據(jù)主要解決的是海量數(shù)據(jù)存儲、計算、挖掘和利用的問題。其特點可概括為“ 4V”,一是規(guī)模性(Volume),數(shù)據(jù)容量巨大,大型數(shù)據(jù)集合一般在幾十TB至PB級的數(shù)據(jù)量;二是多樣性(Variety),數(shù)據(jù)類別繁多,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富;三是高速性(Velocity),數(shù)據(jù)處理速度快,在數(shù)據(jù)量龐大的情況下,實現(xiàn)數(shù)據(jù)的實時處理;四是價值性(Value),數(shù)據(jù)真實性高,愈發(fā)需要有效的信息資源確保其真實性與安全性[3]??梢哉f,大數(shù)據(jù)時代是一個數(shù)據(jù)資源更加豐富的時代,是一個信息技術(shù)更加先進的時代。

災害檔案數(shù)據(jù)資源主要來自災害管理和科研活動產(chǎn)生的電子文件,按照來源和形成方式不同,可以分為數(shù)據(jù)庫文件、電子數(shù)據(jù)表、字處理文檔、電子郵件、掃描圖像、地理空間數(shù)字記錄、數(shù)字照片、網(wǎng)站及其相關(guān)文檔。災害檔案數(shù)據(jù)具有分布性、多源性、異構(gòu)性等特點。從災害檔案管理部門來看,災害檔案資源主要集中在民政、水利、氣象、地震、國土、環(huán)保、測繪、軍隊、海洋等部門,檔案數(shù)據(jù)源分散在不同部門、不同地點,并由不同行業(yè)、不同單位和組織機構(gòu)所擁有。從災害檔案內(nèi)容來看,包括災情、氣象、遙感影像、基礎地理、專題地圖、涉災行業(yè)、經(jīng)濟統(tǒng)計、現(xiàn)場多媒體等多種數(shù)據(jù)。近年來,災害檔案數(shù)據(jù)管理有了較大提高,但由于缺乏強有力的技術(shù)支持,檔案信息服務水平還比較落后,普遍存在管理意識薄弱、數(shù)字化建設不足、服務方式被動、開發(fā)利用欠缺等一系列的不足,利用信息技術(shù)進行檔案數(shù)據(jù)分析、開發(fā)、利用、交換、共享的水平還很低,沒有充分發(fā)揮檔案信息的憑證、參考和情報作用,無法滿足管理部門對災害檔案信息的需求。

二、大數(shù)據(jù)技術(shù)在災害檔案數(shù)據(jù)管理中的應用優(yōu)勢

目前大數(shù)據(jù)研究成果最多的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應用。大數(shù)據(jù)技術(shù)的特色在于它依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,在金融、醫(yī)療、教育、軍事、電子商務甚至政府決策等幾乎所有的領(lǐng)域都有非常廣闊的應用空間。隨著大數(shù)據(jù)時代的到來,應用大數(shù)據(jù)技術(shù)讓災害檔案數(shù)據(jù)獲取、儲存、搜索、共享、分析,乃至可視化地呈現(xiàn),成為了可能,為災害檔案數(shù)據(jù)管理提供新思路和新方法。

1.大數(shù)據(jù)技術(shù)對實現(xiàn)災害檔案智能管理提供強大保障。大數(shù)據(jù)技術(shù)具有的可靠安全的數(shù)據(jù)存儲、方便快捷的云服務、超強的計算能力、諸多技術(shù)的集合體、良好的經(jīng)濟效益以及以用戶為中心的個性化服務等優(yōu)勢,對實現(xiàn)災害檔案“存儲數(shù)字化、管理自動化、利用網(wǎng)絡化”智能管理提供保障。應用大數(shù)據(jù)技術(shù)對分散于不同部門、不同地理位置的檔案數(shù)據(jù)資源進行管理、傳輸、檢索和提供利用,滿足用戶對檔案信息的遠程訪問操作,包括信息查詢、檢索、統(tǒng)計、提取等,實現(xiàn)檔案數(shù)據(jù)資源的互聯(lián)互通和共享利用,將檔案“藏”和“用”的功能都提高到一個新的水平,對于充分發(fā)揮檔案數(shù)據(jù)資源的價值具有前所未有的推動作用。

2.大數(shù)據(jù)技術(shù)對實現(xiàn)災害檔案數(shù)據(jù)挖掘提供有力支持。數(shù)據(jù)越來越多。傳統(tǒng)的檔案管理以文檔管理為主,檔案基本處于被動利用,沉淀的檔案沒有人去分析利用,也沒有技術(shù)工具去支撐挖掘和分析。大數(shù)據(jù)最核心的價值就在于對海量數(shù)據(jù)進行存儲和分析,只有通過分析,才能獲取更多智能的、深入的、有價值的信息。在大數(shù)據(jù)時代,檔案系統(tǒng)中除了大量的文檔之外,還有海量結(jié)構(gòu)化數(shù)據(jù),并且數(shù)據(jù)利用的效果要大于文檔利用效果。檔案部門在收集大數(shù)據(jù)之后,通過主動調(diào)查利用者的需求,建立各種數(shù)據(jù)模型,對海量數(shù)據(jù)進行聚類、分類、相關(guān)性分析,找到數(shù)據(jù)之間的關(guān)系,提高檔案價值,將原來的“死檔案”變成“活信息”,為災害管理決策提供參考。

3.大數(shù)據(jù)技術(shù)對實現(xiàn)災害檔案知識服務提供解決途徑,解決災害檔案如何實現(xiàn)知識服務,如何從浩如煙海的檔案數(shù)據(jù)中快速識別、選擇和有效利用檔案信息,為災害管理部門提供知識服務和智力支持,發(fā)揮檔案的參考憑證、決策咨詢、評估依據(jù)作用。應用大數(shù)據(jù)智能識別、傳感與適配等技術(shù),構(gòu)建基于基礎框架體系、大數(shù)據(jù)處理體系、過程管理體系、大數(shù)據(jù)分析與決策體系、交互體系的大數(shù)據(jù)知識服務平臺[4]將成為有效的解決辦法和途徑。災害檔案大數(shù)據(jù)知識服務平臺搭建的是一個大數(shù)據(jù)獲取、存儲、組織、分析和決策服務資源和服務能力共享、交易和協(xié)作的智慧平臺,依據(jù)災害管理不同行業(yè)、不同領(lǐng)域、不同需求的大數(shù)據(jù)處理需求,在平臺上實現(xiàn)數(shù)據(jù)、知識、資源、能力、服務、過程和任務等資源和能力的共享和協(xié)作。

三、大數(shù)據(jù)時代下災害檔案數(shù)據(jù)管理的應對策略

當前,我國經(jīng)濟發(fā)展已進入新常態(tài),認識新常態(tài)、適應新常態(tài)、引領(lǐng)新常態(tài),是當前和今后一個時期中國經(jīng)濟發(fā)展的大邏輯,也是發(fā)展檔案事業(yè)的基本遵循。災害檔案工作主動適應新常態(tài),需要分析發(fā)展新變化,順應發(fā)展新趨勢,這既是經(jīng)濟社會發(fā)展對災害檔案管理提出的更高要求,也是檔案事業(yè)深化改革和持續(xù)發(fā)展的內(nèi)在需要。在大數(shù)據(jù)時代背景下,災害檔案的產(chǎn)生主體、利用群體、生態(tài)環(huán)境都發(fā)生著新變化,災害檔案數(shù)據(jù)管理應用大數(shù)據(jù)技術(shù)分析、挖掘出龐大的檔案數(shù)據(jù)獨有的價值,從“被動服務”向“主動服務”轉(zhuǎn)變,還面臨著諸多挑戰(zhàn),需要從以下方面加以完善和提高。

1.建立高效有序的運行機制。大數(shù)據(jù)建設是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運行機制,以促進建設過程中各個環(huán)節(jié)的正規(guī)有序,實現(xiàn)統(tǒng)籌協(xié)調(diào),搞好頂層設計。應當增強災害檔案數(shù)據(jù)管理意識,做好災害檔案數(shù)據(jù)發(fā)展規(guī)劃,并將其納入國家綜合防災減災規(guī)劃中,建立災害檔案數(shù)據(jù)標準與規(guī)范,構(gòu)建檔案數(shù)據(jù)管理系統(tǒng),實現(xiàn)災害檔案數(shù)據(jù)有效組織、集中存儲、共享與服務。

2.制定科學規(guī)范的建設標準。災害管理涉及部門多、領(lǐng)域多、專業(yè)復雜,各部門都是按照各自定義的內(nèi)部數(shù)據(jù)標準進行信息系統(tǒng)建設,因此存在災害檔案數(shù)據(jù)資源結(jié)構(gòu)不統(tǒng)一、標準不配套等問題。沒有標準就沒有系統(tǒng),應建立面向不同主題、覆蓋各個領(lǐng)域、不斷動態(tài)更新的大數(shù)據(jù)建設標準,為實現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡互連、信息互通、資源共享奠定基礎。

3.搭建共享利用的服務平臺。我國的災害管理涉及多個部門,通過幾十年的努力,已經(jīng)積累了海量與防災減災相關(guān)的專題數(shù)據(jù),并建立了一些信息網(wǎng)絡系統(tǒng),部分開展了信息共享,但絕大多數(shù)災害管理相關(guān)數(shù)據(jù)還沒有實現(xiàn)有效共享和利用。數(shù)據(jù)只有不斷流動和充分共享,才有生命力,所以應在各專用數(shù)據(jù)庫建設的基礎上,通過數(shù)據(jù)集成,實現(xiàn)各級各類信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。

4.培養(yǎng)高素質(zhì)的專業(yè)隊伍。災害檔案大數(shù)據(jù)建設的每個環(huán)節(jié)都需要依靠專業(yè)人員完成。一方面,需要培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設專業(yè)隊伍;另一方面,需要加強檔案管理人員對信息技術(shù)的掌握,加強檔案管理人員大數(shù)據(jù)相關(guān)知識的培訓和輔導,做好大數(shù)據(jù)背景下檔案管理的人才儲備。

第6篇:大數(shù)據(jù)時代的定義與特點范文

【關(guān)鍵詞】大數(shù)據(jù) 高校 綜合辦公 創(chuàng)新

伴隨著21世紀互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,互聯(lián)網(wǎng)滲透到了世界之中的各個角落,其中包含當前比較前沿的科技領(lǐng)域以及我們實際生活中的方方面面?;ヂ?lián)網(wǎng)技術(shù)之中的大數(shù)據(jù)管理技術(shù)能夠不斷進行資源共享以及資源的傳播,所以,為了能夠在辦公之中實現(xiàn)高校并且達到創(chuàng)新,這些都是值得探究的問題。

1 大數(shù)據(jù)概述

1.1 大數(shù)據(jù)定義

大數(shù)據(jù)是指資料規(guī)模較為巨大,通過主流的軟件無法進行合理的分析以及采集及管理的資訊。大數(shù)據(jù)具有 4V 特點:Volume、 Velocity、Va- riety、Veracity, 是由數(shù)量巨大、 結(jié)構(gòu)復雜、類型眾多的數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合, 是基于云計算的數(shù)據(jù)處理與 應用模式, 通過數(shù)據(jù)的整合共享, 交叉復用,形成的智 力資源和知識服務能力。

1.2 大數(shù)據(jù)的特點

1.2.1 大數(shù)據(jù)量巨大

一般都是以PB級別進行估量。

1.2.2 數(shù)據(jù)類型比較繁多

比如網(wǎng)絡日志、圖片、地理信息以及相關(guān)的視頻信息。

1.2.3 數(shù)據(jù)價值密度較低

將視頻作為例子,可以看到在不間斷的監(jiān)控的視頻之中能夠真正用到的數(shù)據(jù)只有不到1秒鐘。

1.2.4 處理速度迅速

與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)明顯不同,大數(shù)據(jù)的處理速度非常迅速。云計算、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、以及各種多媒體載體,這些遍布全球都是多媒體數(shù)據(jù)的來源。

2 在高校綜合辦公之中的實際應用

2.1 網(wǎng)絡辦公中的大數(shù)據(jù)技術(shù)應用

各類的網(wǎng)絡辦公團建存在著部門層次較多、管理鏈條較長以及面向的對象較廣的問題,大數(shù)據(jù)處理技術(shù)的應用可以很好的處理這些問題。大數(shù)據(jù)的技術(shù)發(fā)展,將海量的網(wǎng)絡信息進行有效的處理以及優(yōu)化,最終達到便捷、預判以及可靠的效果。

在正常的網(wǎng)絡辦公之中,應該提升網(wǎng)絡辦公故障的預處理能力。網(wǎng)絡設備的故障的出現(xiàn)之前,應該進行對故障設備的預警,通過對網(wǎng)絡運行設備的基礎信息以及歷史運行的數(shù)據(jù)挖掘與良好的處理,可以進行設備的正常運行狀態(tài)的檢測值的設置。通過大數(shù)據(jù)技術(shù),可以實時檢測計算機網(wǎng)絡的各種 活動,通過對網(wǎng)絡異常行為的發(fā)現(xiàn)、預警,網(wǎng)絡流量與狀態(tài)的監(jiān) 測、分析,來處理眾多安全事件,從而提升網(wǎng)絡辦公體系的安全 防御能力。

2.2 提升資源合理配置,加強綠色通信的實現(xiàn)

伴隨著辦公之中的終端數(shù)據(jù)的激增,大數(shù)據(jù)技術(shù)不斷滲透到了資源的配置之中。所以在實際的辦公之中,應該對辦公的流程、文件的提取以及行政安排,進行能源消耗的降低并且營造綠色的網(wǎng)絡。

(1)實現(xiàn)網(wǎng)絡資源的動態(tài)分配。通過動態(tài)自適應的方法, 充分考慮服務需求、網(wǎng)絡流量等情況,再配備相應的行政資源。

(2)大數(shù)據(jù)技術(shù)支持龐大數(shù)據(jù)的存儲和處理,使行政管理資源的統(tǒng)一管理或統(tǒng)一備份成為可能。

2.3 進行有效的數(shù)據(jù)整合

行政辦公系統(tǒng)之中,數(shù)據(jù)類型不再是以單一的文本為主要資源形式的結(jié)構(gòu)化數(shù)據(jù),其中還包括眾多的音頻、視頻、地理位置,在綜合辦公之中這些數(shù)據(jù)的處理應該利用大數(shù)據(jù)進行高校快速的處理。將辦公之中的非結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一、整合以及科學重組,最后使得行政管理能夠迅速傳遞信息。

2.4 加強辦公的安全性

在大數(shù)據(jù)背景下進行辦公,應該加強辦公環(huán)境的安全性。大數(shù)據(jù)技術(shù)的應用實現(xiàn)了大量數(shù)據(jù)的處理以及實現(xiàn)。不可控制的大量數(shù)據(jù)其中包含病毒、黑客的攻擊以及系統(tǒng)的漏洞。為了能夠提升高校綜合辦公,應該加強辦公的安全性??梢詮脑L問控制、網(wǎng)絡隔離以及人侵檢測、病毒防治這幾個方面提升大數(shù)據(jù)環(huán)境辦公網(wǎng)絡安全度。

2.5 提升綜合辦公效率

大數(shù)據(jù)技術(shù)的應用提升了綜合辦公的效率,減少了冗余的時間。在行政辦公之中海量數(shù)據(jù)中存在著大量噪聲, 在數(shù)據(jù)集成時需要對數(shù)據(jù)進行清洗, 保證數(shù)據(jù)的質(zhì)量和可信性。 有利于各部門之間快捷有效的溝通并開展工作。大數(shù)據(jù)技術(shù)實現(xiàn)了資源共享,資源可以快速在各部門與院系之間傳遞。人員處理信息資源的速度提升,提升了綜合辦公效率。

3 結(jié)束語

大數(shù)據(jù)時代的來臨,對于行政辦公的效率提升有著重要的作用。在高校綜合辦公之中,大數(shù)據(jù)必然有著廣闊的應用前景。綜合辦公在大數(shù)據(jù)時代將獲得巨大的突破,辦公中蘊藏著的巨大知識寶藏能夠得到更好的開發(fā)與利用。

參考文獻

[1]覃雄派,王會舉,杜小勇等.大數(shù)據(jù)分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,23(1):32-45.DOI:10.3724/SP.J.1001.2012.04091.

[2]李玉梓.辦公軟件Excel的應用技巧[J].產(chǎn)業(yè)與科技論壇,2015,(9):95-96.DOI:10.3969/j.issn.1673-5641.2015.09.053.

[3]高校辦公[J].辦公自動化:辦公設備與耗材,2012,(10):48-48.

[4]王元卓,靳小龍,程學旗等.網(wǎng)絡大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學報,2013,36(6):1125-1138.DOI:10.3724/SP.J.1016.2013.01125.

第7篇:大數(shù)據(jù)時代的定義與特點范文

關(guān)鍵詞: 大數(shù)據(jù)時代 高校宣傳思想工作 建議

大數(shù)據(jù)開啟了時代轉(zhuǎn)型之門,隨著信息技術(shù)的發(fā)展,海量的數(shù)據(jù)日益影響著人們的工作、學習和生活。8月19日,國務院常務會通過《關(guān)于促進大數(shù)據(jù)發(fā)展的行動綱要》,標志著大數(shù)據(jù)已經(jīng)正式上升到國家最核心戰(zhàn)略。面對新的形勢,高校宣傳思想工作者如何搶抓機遇,以“大數(shù)據(jù)”思維推動各項工作提檔升級、創(chuàng)新發(fā)展,是一項亟須深入思考和實踐的重要課題。

一、大數(shù)據(jù)的概念及基本內(nèi)涵

早在1980年,著名未來學家阿爾文?托夫勒便在《第三次浪潮》一書中,將“大數(shù)據(jù)”熱情地贊頌為“第三次浪潮的華彩樂章”。近年來,大數(shù)據(jù)更是廣受關(guān)注,不過,對于大數(shù)據(jù)概念的理解并未取得一致。麥肯錫是研究大數(shù)據(jù)的先驅(qū),認為大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。國際數(shù)據(jù)公司(IDC)從大數(shù)據(jù)的四個特征來定義,即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)、巨大的數(shù)據(jù)價值(Value)[1]。維克?托邁爾?舍恩伯格認為:“人們能在大規(guī)模數(shù)據(jù)的基礎之上做到的事情,并且這些事情在小規(guī)模數(shù)據(jù)的基礎上無法完成,就叫做大數(shù)據(jù)。人們能夠通過大數(shù)據(jù)獲得更新認知、創(chuàng)造更新的價值觀念;大數(shù)據(jù)還可以改變組織機構(gòu)和市場,以及政府與公民關(guān)系?!睆娬{(diào)以大數(shù)據(jù)技術(shù)為基礎的新思維和新方法[2]。

盡管對“大數(shù)據(jù)”的認識存在差別,但綜合不同的定義看,“大數(shù)據(jù)”在不同領(lǐng)域內(nèi)包含三層含義,可以分別從現(xiàn)實和技術(shù)兩方面加以闡釋:第一層意義上的“大數(shù)據(jù)”指的是數(shù)據(jù)的巨量化和多樣化,現(xiàn)實方面指的是海量數(shù)據(jù),技術(shù)方面指的是海量數(shù)據(jù)存儲;第二層意義上的“大數(shù)據(jù)”指的是大數(shù)據(jù)技術(shù),現(xiàn)實方面指的是對已有或者新獲取的大量數(shù)據(jù)進行全面分析和利用,技術(shù)方面指的是云存儲和云計算;第三層意義上的“大數(shù)據(jù)”指的是大數(shù)據(jù)思維或者大數(shù)據(jù)方法,現(xiàn)實方面指的是把目標全體作為樣本的研究方式、模糊化的思維方式、側(cè)重相關(guān)性的思考方式等理念,技術(shù)方面是指利用海量數(shù)據(jù)進行分析、處理并用以輔助決策,或者直接進行機器決策、半機器決策的全過程大數(shù)據(jù)方法,這種對大數(shù)據(jù)的認知方式涉及“大數(shù)據(jù)項目”或“大數(shù)據(jù)技術(shù)應用”的認知[3]。

二、大數(shù)據(jù)在高校宣傳思想工作的應用價值

宣傳思想工作是在頭腦中搞建設,向來被認為務虛多于務實,經(jīng)驗等同于規(guī)律,往往側(cè)重定性分析,忽視定量分析。在互聯(lián)網(wǎng)背景下,如何在師生產(chǎn)生的海量信息數(shù)據(jù)中尋找具有價值的內(nèi)容,僅僅依靠傳統(tǒng)的定性分析方法顯然不適用。大數(shù)據(jù)引起變革的最重要方面在于它創(chuàng)造了前所未有的可量化維度,使定量分析方法取得了突破性進展,也為高校宣傳思想工作由定性向定量、感性向理性、務虛向務實轉(zhuǎn)變提供了新的機遇。

(一)夯實宣傳思想工作基礎。

大學生思想政治教育是高校宣傳思想工作的一項重要內(nèi)容。由于當代大學生群體是伴隨著互聯(lián)網(wǎng)成長起來的,他們思想活躍,主動積極,并敢于創(chuàng)新和實踐行動,因此,對其思想動態(tài)、情感就更加難以把握,對其未來行為和言論更加難以預測。而大數(shù)據(jù)給思想政治教育提供了呈現(xiàn)和開發(fā)利用信息的方法,以全面收集學生網(wǎng)上、日常活動等海量信息為前提,通過加工和綜合處理使之轉(zhuǎn)化成有效信息的基礎上,進行分析、判斷、過濾、提純,使之成為有價值的“思想狀況大數(shù)據(jù)庫”,進而達成對教育對象的全面認識和準確把握。

(二)豐富宣傳思想工作方法。

高校身處國家意識形態(tài)工作的前沿,在這個“人人都有麥克風”的全媒體時代,如何加強網(wǎng)絡輿論引導,鞏固擴大宣傳思想陣地,已經(jīng)是勢在必行。要預測分析引導輿情,首要條件是對各種關(guān)聯(lián)的數(shù)據(jù)進行分析計算。在大數(shù)據(jù)的支撐下,突破了傳統(tǒng)數(shù)據(jù)時代片面化、單一化、靜態(tài)化的思維,定量研究、定性研究、數(shù)學模型等許多新的研究工具和方法都可以利用,可以將看似無關(guān)緊要的輿情數(shù)據(jù)納入分析計算的范圍,從而使輿論引導工作更富科學性、前瞻性和有效性。

(三)創(chuàng)新宣傳思想工作方式。

隨著信息技術(shù)的發(fā)展,海量的數(shù)據(jù)影響著人們的工作和生活,對新聞生產(chǎn)方式也產(chǎn)生了廣泛的影響,數(shù)據(jù)新聞應運而生?!皵?shù)據(jù)新聞”,也被稱為“數(shù)據(jù)驅(qū)動新聞”,簡而言之,就是一種新聞生產(chǎn)方式,對大量的數(shù)據(jù)和信息進行分析、處理,運用可視化和敘事化的手段,創(chuàng)作出一種新的新聞報道方式[4]。當前,高校校報、廣播等傳統(tǒng)媒體的生存環(huán)境正面臨著十分嚴峻的考驗,而受眾正向以互聯(lián)網(wǎng)為代表的新媒體遷移,而數(shù)據(jù)新聞正是在電子媒體上才能得以呈現(xiàn)。數(shù)據(jù)新聞通過可視化的技術(shù)呈現(xiàn)出來,使得新聞有了新的敘事的方法,它的私人訂制化、受眾可參與新聞創(chuàng)作的特點,是目前數(shù)據(jù)新聞與其他圖文新聞所不一樣的地方。

三、大數(shù)據(jù)時代宣傳思想工作面臨的主要問題

當前,我國“大數(shù)據(jù)”技術(shù)的開發(fā)應用,相比歐美等發(fā)達國家相對滯后,在高校宣傳思想領(lǐng)域引入相關(guān)的理念和技術(shù),還屬于理論研究和實踐起步階段,并存在諸多難點。

(一)戰(zhàn)略認識有待深化。

如今,高校信息化建設正經(jīng)歷著由簡單到復雜、由單一到多元、由局部到整體的全方位一體化的發(fā)展過程。數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù),在招生、就業(yè)、教學、科研、人事、財務、資產(chǎn)、圖書借閱等方面逐漸開始嘗試運用,盡管這種探索還是不成熟的、淺層次的。但在宣傳思想工作領(lǐng)域,“穩(wěn)、怕、守”的心理普遍存在,“探、闖、試”的勁頭不足。面對新時代、新形勢,在樹立大數(shù)據(jù)思維、應用前沿技術(shù)、推進方式方法創(chuàng)新上面缺乏機遇意識和前瞻眼光,在頂層設計、資源配置、宣傳發(fā)動等方面的工作基礎還比較薄弱,借助“大數(shù)據(jù)”為宣傳文化工作提檔升級仍需凝聚共識、匯聚力量。

(二)技術(shù)平臺有待完善。

近年來,隨著移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術(shù)的興起,學校師生主動產(chǎn)生和由設備自動收集的信息越來越多,如微博、微信等社交信息,各類搜索點擊記錄信息等。這些信息的有效挖掘和分析,對開展宣傳思想工作有著非常重要的意義。但是上述信息存在著數(shù)據(jù)量大、結(jié)構(gòu)復雜、產(chǎn)生頻率快的特點。由于缺乏統(tǒng)籌規(guī)劃,許多職能部門各自為政,不少應用系統(tǒng)之間沒有統(tǒng)一的技術(shù)和數(shù)據(jù)標準,數(shù)據(jù)不能自動傳遞,缺乏有效的關(guān)聯(lián)和共享,從而形成“數(shù)據(jù)孤島”。在需要連接多個數(shù)據(jù)源的情況下,數(shù)據(jù)的提取非常困難,而復雜的在線分析幾乎無法實現(xiàn)。

(三)人才隊伍有待加強。

大數(shù)據(jù)是一個綜合性課題,需要不同層級的人才。麥肯錫公司預計,美國到2018年深度數(shù)據(jù)分析人才缺口將達14萬~19萬人,能夠分析數(shù)據(jù)幫助公司獲得經(jīng)濟效益的技術(shù)及管理人才有150萬人的缺口。中國能理解與應用大數(shù)據(jù)的創(chuàng)新人才更是稀缺資源[5]。目前,高校大多數(shù)宣傳思想工作者的學科背景都屬于文史類,大多數(shù)人僅僅是利用互聯(lián)網(wǎng)獲取資料、捕捉師生思想行為的信息,通過對微博、微信、QQ空間、貼吧、論壇等新媒體的簡單運用開展思想教育和行為引導,但對于深層次的多級輿情信息,師生針對某一事件評論反映出的情緒變化、行動性暗示等信息無法通過大數(shù)據(jù)、互聯(lián)網(wǎng)等相關(guān)知識和技術(shù)深度挖掘,這在很大程度上影響著宣傳思想工作與大數(shù)據(jù)時代的契合。

四、做好大數(shù)據(jù)時代宣傳思想工作的幾點建議

(一)加強領(lǐng)導,為大數(shù)據(jù)時代的宣傳思想工作提供堅實組織保障。

大數(shù)據(jù)建設是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須加強頂層設計,搞好宣傳發(fā)動,以促進建設過程中各個環(huán)節(jié)的規(guī)范有序。一是做好大數(shù)據(jù)規(guī)劃。高校要利用制定“十三五“規(guī)劃這個有利時機,做好宣傳思想工作大數(shù)據(jù)發(fā)展的頂層設計,明確大數(shù)據(jù)發(fā)展的戰(zhàn)略目標、戰(zhàn)略任務和戰(zhàn)略重點,統(tǒng)籌推進相關(guān)數(shù)據(jù)中心及基礎數(shù)據(jù)庫建設。二是加大資源投入。大數(shù)據(jù)背后是一系列的數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)顯示、數(shù)據(jù)安全等步驟,每個環(huán)節(jié)都需要大量人財物投入。三是加大宣傳教育力度,培養(yǎng)數(shù)據(jù)意識和數(shù)據(jù)素養(yǎng)。創(chuàng)新內(nèi)容、形式和途徑,把大數(shù)據(jù)專業(yè)知識列入高校宣傳思想系統(tǒng)領(lǐng)導干部、工作人員教育培訓考核重要內(nèi)容。

(二)整合資源,為大數(shù)據(jù)時代的宣傳思想工作提供一流技術(shù)平臺。

數(shù)據(jù)只有不斷流動和充分共享,才有生命力。一是建立統(tǒng)一的數(shù)據(jù)標準。要牢固樹立“大宣傳”意識,規(guī)范數(shù)據(jù)管理的方法、流程、定義,統(tǒng)籌和整合宣傳思想領(lǐng)域各方面異源異構(gòu)性信息數(shù)據(jù),實現(xiàn)各業(yè)務模塊間的數(shù)據(jù)庫的集成、交換和共享,消除“信息孤島”。二是建立嚴格的數(shù)據(jù)管理制度。制定信息采集和管控、敏感數(shù)據(jù)管理、數(shù)據(jù)交換、數(shù)據(jù)權(quán)益等領(lǐng)域的大數(shù)據(jù)管理規(guī)章制度,明確大數(shù)據(jù)采集、使用、開放等環(huán)節(jié)涉及信息安全的范圍、要求和責任。三是拓寬大數(shù)據(jù)挖掘獲取渠道。加大與人民網(wǎng)、新華網(wǎng)、新浪、騰訊、百度、鳳凰網(wǎng)等主要網(wǎng)站的合作,通過合作模式獲取后臺關(guān)鍵數(shù)據(jù)。

(三)創(chuàng)新機制,為大數(shù)據(jù)時代的宣傳思想工作提供強大智力支撐。

沒有一流的人才隊伍,做好大數(shù)據(jù)時代高校宣傳思想工作將是一句空話。因此,不斷創(chuàng)新機制,通過多種途徑和形式,開發(fā)培養(yǎng)一支大數(shù)據(jù)人才隊伍,提高宣傳思想工作的能力勢在必行。一要發(fā)揮高校學科優(yōu)勢,協(xié)同科研單位、媒體機構(gòu)、政府部門力量,開設專門的數(shù)據(jù)科學學科,加強各學科人才的交叉培養(yǎng),重點培養(yǎng)綜合掌握統(tǒng)計學、計算機學、管理學、新聞傳播學等各方面知識的復合型人才,打造一支規(guī)模宏大的大數(shù)據(jù)人才隊伍。二是利用“聘任制”,不斷吸引社會專業(yè)人才進入高校宣傳思想工作系統(tǒng)。三是通過購買服務的方式,短期租賃高精尖大數(shù)據(jù)技術(shù)人才為我所用,不斷健全高校宣傳思想工作大數(shù)據(jù)技術(shù)人才體系。

參考文獻:

[1]趙國棟,等.大數(shù)據(jù)時代的歷史機遇[M].北京:清華大學出版社,2013.

[2]維克托?邁克?舍恩伯格,肯尼斯?庫克耶,著.盛楊燕,周濤,譯.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.

[3]馬奔,毛慶鐸.大數(shù)據(jù)在應急管理中的應用[J].中國行政管理,2015(3).

第8篇:大數(shù)據(jù)時代的定義與特點范文

【關(guān)鍵詞】大數(shù)據(jù);思想政治教育;現(xiàn)代化

一、大數(shù)據(jù)的定義及特點

研究機構(gòu)Gartner定義“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。然而,在各國提倡下、各行業(yè)創(chuàng)新發(fā)展過程中,目前所說的“大數(shù)據(jù)”不僅指巨量數(shù)據(jù)本身,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的4V特點:Volume(大量)、Variety(多樣)、Value(價值)、Velocity(高速),具體表述即為數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、總價值巨大但有效價值密度低、處理速度快。由此可見,想要在創(chuàng)新中發(fā)展,必然要優(yōu)化利用大數(shù)據(jù)。

二、大數(shù)據(jù)時代的機遇與挑戰(zhàn)

在傳統(tǒng)的高校思想政治教育工作中,核心是政治,最為顯著的教學方式是課堂授課式灌輸思想,教育成功的決定性因素是教育工作者的道德素質(zhì)和理論水平。而現(xiàn)代化的思想政治教育的本質(zhì)是為人民服務,確立以人為本的發(fā)展性教育理念,要以科學發(fā)展觀指導大學生思想政治教育現(xiàn)代化建設,保證教育工作的主客體同步現(xiàn)代化及教育內(nèi)容和教學方式的現(xiàn)代化。

收集并整理符合時展要求的教育內(nèi)容是思想政治教育工作的核心型任務。在互聯(lián)網(wǎng)和電子科技迅捷發(fā)展的過程中,大量的文字信息或是圖片視頻資料幾乎全部以電子數(shù)據(jù)方式進行傳播、留存。根據(jù)大數(shù)據(jù)的4V特點,巨量的不同存儲類型的思想政治教育內(nèi)容能夠輕而易舉地被數(shù)據(jù)處理系統(tǒng)統(tǒng)一收集并使用大數(shù)據(jù)技術(shù)進行處理。大數(shù)據(jù)技術(shù)意味著從單一領(lǐng)域所包含的各種各樣類型的巨量數(shù)據(jù)集合中,快速獲得有價值信息,即符合現(xiàn)代化教育要求的內(nèi)容。由此可見,大數(shù)據(jù)時代運籌帷幄的關(guān)鍵核心在于合理應用大數(shù)據(jù)技術(shù),做到節(jié)約大量人力物力的資金成本,同時短時高效地完成數(shù)據(jù)處理過程并獲取最終成果。

對思想政治教育工作者而言,能夠從大數(shù)據(jù)中快速獲取大量現(xiàn)代化教學內(nèi)容是令人振奮的。然而,如何從大數(shù)據(jù)中發(fā)掘出適用于當代大學生思想政治教育專題活動的具體內(nèi)容和教學方式則是一個不容忽視的現(xiàn)實的挑戰(zhàn)。這就要求高校思想教育工作者腳踏實地地進行設計一套全新的、現(xiàn)代化的、對大學生思想政治覺悟和思維辯證能力具有深遠影響的解決方案。

三、現(xiàn)代化高校思想政治教育工作的創(chuàng)新

(一)樹立大數(shù)據(jù)意識,建立教學資源庫

高校的思想政治教育工作者和大學生群體作為教育改革創(chuàng)新中的主客體,被時代賦予了不可推卸的重任。90后的高校大學生從小便熟知計算機應用及互聯(lián)網(wǎng)的發(fā)展歷程,因而對于科技新生產(chǎn)物接受程度極高,與此同時,作為網(wǎng)絡和新媒體的主要應用者,大學生群體習慣于在生活及學習中借用電子科技處理問題或獲取知識。在先進的思想氛圍烘托下,高校思想政治教育工作者在教學過程中提倡樹立大數(shù)據(jù)意識有基本立足點。實踐是檢驗真理的唯一標準,因此,建立網(wǎng)絡教學資源庫作為必不可少的教育創(chuàng)新之舉,能夠彌補傳統(tǒng)的“填鴨式”教學模式中的缺陷,為學生自主學習思想政治內(nèi)容提供了科技便利,實現(xiàn)資源共享。

(二)提高數(shù)據(jù)分析能力,補充數(shù)據(jù)核心內(nèi)涵

大數(shù)據(jù)分析的五個基本方面,在不同領(lǐng)域的數(shù)據(jù)分析應用中會有不同的參考方向。教學資源的數(shù)據(jù)分析中需要采用的是語義引擎(即在大數(shù)據(jù)分析廣泛應用于網(wǎng)絡數(shù)據(jù)挖掘的過程中,可從用戶的搜索關(guān)鍵詞、標簽關(guān)鍵詞、或其他輸入語義,分析,判斷用戶需求,從而實現(xiàn)更好的用戶體驗和內(nèi)容匹配),及數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理(即大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學術(shù)研究還是在商業(yè)應用領(lǐng)域,都能夠保證分析結(jié)果的真實性和價值性)。建立網(wǎng)絡教學資源庫的根本是語義引擎的設置,需要將文本、圖片或視頻資源與教學內(nèi)容的標簽關(guān)鍵詞信息一一對應。在保證數(shù)據(jù)信息內(nèi)容一致性的同時,更為重要的是數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,不能忽略教育資源中文本、圖片或視頻資源中的隱含信息,在信息處理過程中要補充數(shù)據(jù)核心內(nèi)涵。

(三)補充教育實踐活動,實現(xiàn)思教創(chuàng)新改革

現(xiàn)代化的高校思想政治教育是指在全球化進程和我國社會主義社會建設過程中,人們的生活方式和思想觀念發(fā)生了根本的變化,因此思想政治教育需要結(jié)合新時代的變化進行改革,要以理論觀點結(jié)合創(chuàng)新實踐活動實現(xiàn)從傳統(tǒng)思想政治教育活動到現(xiàn)代化的理論與實踐相結(jié)合的轉(zhuǎn)型。高校思想政治教育工作者可以使用微信、微博等新媒體在日常工作中對學生進行潛移默化的思想引導,同時借助新媒體后臺的數(shù)據(jù)統(tǒng)計分析學生們在思想政治學習過程中期待的教學內(nèi)容及實踐活動,或是開放網(wǎng)絡教學資源庫,讓學生們自主參與“DIY紅色經(jīng)典路線”、“學生自主課堂展示教學”等專題活動,使網(wǎng)絡資源與實踐活動取長補短,完善現(xiàn)代化思想政治教育的創(chuàng)新。

作者簡介:高志遠(1986-),男,籍貫:遼寧省營口人,研究方向:大學生思想政治教育。

參考文獻:

[1]張海濱,郭霞n.論大數(shù)據(jù)時代背景下的高校思想政治教育.教育教學論壇.2014(12).48-49

[2]孫長虹.大數(shù)據(jù)時代高校思想政治教育面臨的挑戰(zhàn)與對策.重慶理工大學學報(社會科學),2014(9).143-145.

第9篇:大數(shù)據(jù)時代的定義與特點范文

關(guān)鍵詞:大數(shù)據(jù);理論,技術(shù)

中圖分類號:TP311.13

1 大數(shù)據(jù)的定義

大數(shù)據(jù)本身是個比較抽象的概念。顧名思義,其表示數(shù)據(jù)規(guī)模的龐大與數(shù)據(jù)類型的繁多。近年來,隨著數(shù)據(jù)量的爆炸式增長,數(shù)據(jù)的計量已不能采用人們熟知的GB或TB為單位進行描述,而是以PB(1PB=1024TB)、EB(1EB=1024PB),甚至ZB(1ZB=1024EB)為計量單位。以利用電子顯微鏡構(gòu)建大腦中的突觸網(wǎng)絡為例。據(jù)估算,大約1mm3大腦的圖像,數(shù)據(jù)量超過1PB,如此大的數(shù)據(jù)量無法采用傳統(tǒng)數(shù)據(jù)庫工具進行內(nèi)容抓取、管理和處理。

目前,有關(guān)大數(shù)據(jù)的定義尚未統(tǒng)一,主要有以下3種。

《互聯(lián)網(wǎng)周刊》的定義為:大數(shù)據(jù)涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎上可以實現(xiàn)而在小規(guī)模數(shù)據(jù)的基礎上無法實現(xiàn)的事情。也就是說,大數(shù)據(jù)讓我們以1種前所未有的方式,通過對海量數(shù)據(jù)進行分析來獲取蘊含巨大價值的產(chǎn)品、服務或深刻的洞見,最終形成變革之力。

相關(guān)研究機構(gòu)認為:大數(shù)據(jù)是需要采用新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)類別上看,大數(shù)據(jù)是指無法使用傳統(tǒng)流程或工具處理或分析的信息。其定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)方法處理的數(shù)據(jù)集。

IBM通過分析大數(shù)據(jù)的特征對大數(shù)據(jù)進行了定義,認為:類型(variety)、數(shù)量(volume)和速度(velocity)是構(gòu)成大數(shù)據(jù)的3個主要內(nèi)容。其中,類型指數(shù)據(jù)中包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)形式;數(shù)量指收集和分析的數(shù)據(jù)量非常大;速度指數(shù)據(jù)處理速度要足夠快。

2 大數(shù)據(jù)的產(chǎn)生

現(xiàn)如今,全球數(shù)據(jù)量正以前所未有的速度增長著,且隨著全球無線網(wǎng)絡覆蓋區(qū)域的不斷擴大,以及移動設備的出現(xiàn)與發(fā)展,數(shù)據(jù)的增長已不再受時間、地點的限制。從目前來看,大數(shù)據(jù)量的積累與增長主要經(jīng)歷了3個階段。

信息化管理被動產(chǎn)生數(shù)據(jù)階段。企業(yè)為實現(xiàn)信息化管理,需存儲、處理企業(yè)辦公文件、財務報表、員工信息等數(shù)據(jù)。這一過程催生了數(shù)據(jù)庫的出現(xiàn),如超市庫存系統(tǒng)、銀行交易記錄系統(tǒng)、企業(yè)員工醫(yī)療信息系統(tǒng)等。因此,辦公信息化促成了人類社會數(shù)據(jù)量的首次大飛躍。這個階段產(chǎn)生的數(shù)據(jù)的主要特點是:數(shù)據(jù)伴隨著一定的運營活動而產(chǎn)生,并記錄到數(shù)據(jù)庫中。例如,企業(yè)人力資源部門錄入員工的基本信息,員工的信息就出現(xiàn)在企業(yè)數(shù)據(jù)庫中,這種數(shù)據(jù)產(chǎn)生方式是被動的。

社交網(wǎng)絡與便攜設備主動產(chǎn)生數(shù)據(jù)階段。在這一階段,數(shù)據(jù)量的增長來自2個方面:一是開放社交網(wǎng)絡的出現(xiàn),如微博、人人網(wǎng),使用戶主動在社交網(wǎng)絡上發(fā)表自己的看法,分享自己關(guān)注的內(nèi)容,這些過程產(chǎn)生了大量的數(shù)據(jù);二是以智能手機、平板電腦為代表的新一代移動設備的出現(xiàn),這些易攜帶、全天候接入互聯(lián)網(wǎng)的設備使人們能夠更方便地發(fā)表自己的想法等。這些都促成了人類社會數(shù)據(jù)量的第2次大飛躍,這一階段產(chǎn)生的數(shù)據(jù)是主動的。

人、機、物三者深度融合自動產(chǎn)生數(shù)據(jù)階段。隨著物聯(lián)網(wǎng)的發(fā)展,傳感器的使用越來越廣泛,人類制造的極小的、具有處理功能的傳感器等設備部署到世界的各個角落,或?qū)ι鐣母鞣N活動進行監(jiān)控,或?qū)θ祟惿眢w健康狀況進行隨時隨地的監(jiān)測,這些過程都產(chǎn)生了大量數(shù)據(jù),形成了人類社會數(shù)據(jù)量的第3次大飛躍,這種數(shù)據(jù)的產(chǎn)生是自動的。

綜上所述,數(shù)據(jù)的產(chǎn)生經(jīng)歷了從被動到主動,再到自動的過程,其中,自動產(chǎn)生數(shù)據(jù)的過程是形成大數(shù)據(jù)的根本原因。

3 大數(shù)據(jù)的關(guān)鍵技術(shù)

3.1 文件系統(tǒng)。針對數(shù)據(jù)存儲,文件系統(tǒng)需要考慮3個問題:高性能共享性、文件的管理和保護、重復數(shù)據(jù)的處理。尤其是在面對海量文件時,上述問題更加凸顯。例如:美國谷歌公司設計開發(fā)了谷歌文件系統(tǒng)GFS――(Googlefilesystem)。

GFS是構(gòu)建在大量廉價服務器之上的可擴展的分布式文件系統(tǒng),主要針對文件較大、且讀遠大于寫的應用場景,采用主從(Master-Slave)結(jié)構(gòu),通過數(shù)據(jù)分塊、追加更新(append-only)等方式實現(xiàn)了海量數(shù)據(jù)的高效存儲。同時,谷歌公司選擇電價較低的地點建立存儲庫,從而降低了運行成本。

3.2 數(shù)據(jù)庫系統(tǒng)。大數(shù)據(jù)的特點決定了數(shù)據(jù)庫系統(tǒng)需解決的問題:第一,數(shù)據(jù)量規(guī)模巨大。大數(shù)據(jù)時代的數(shù)據(jù)量遠遠超過單機所能容納的數(shù)據(jù)量,因此,必須采用分布式存儲方式。這就需要系統(tǒng)具有很好的擴展性,即適應大數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)應當具有良好的橫向擴展(scale-out)能力。第二,數(shù)據(jù)異構(gòu)性。結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)均是大數(shù)據(jù)的重要組成部分。高效地處理多種數(shù)據(jù)類型是大數(shù)據(jù)時代數(shù)據(jù)庫技術(shù)面臨的重要挑戰(zhàn)之一。第三,設計理念要不斷創(chuàng)新。面對多種類型的數(shù)據(jù),不可能存在統(tǒng)一的數(shù)據(jù)處理方式,這就要求新型的數(shù)據(jù)庫系統(tǒng)以不斷變化的角度對待數(shù)據(jù)。

數(shù)據(jù)分析與處理技術(shù)。傳統(tǒng)的針對結(jié)構(gòu)化數(shù)據(jù)進行挖掘的理論已日臻成熟,但是針對大數(shù)據(jù)時代的數(shù)據(jù)類型,則需要開發(fā)新的數(shù)據(jù)處理與挖掘技術(shù)。

(1)Hadoop數(shù)據(jù)處理平臺。目前,數(shù)據(jù)的分析與處理尚沒有絕對合適的工具。Hadoop是當前最為流行的大數(shù)據(jù)處理平臺。Hadoop最先是模仿GFS和Mapreduce實現(xiàn)的云計算開源平臺。對Hadoop改進并將其應用于各種場景的大數(shù)據(jù)處理已經(jīng)成為業(yè)界新的研究熱點,主要的研究成果集中在Hadoop平臺性能改進、高效查詢處理、索引構(gòu)建和使用、基于Hadoop的數(shù)據(jù)倉庫構(gòu)建、Hadoop與數(shù)據(jù)庫系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等方面。

(2)深度學習技術(shù)。深度學習通過建立類似人腦的分層模型結(jié)構(gòu),對輸入數(shù)據(jù)逐級提取從底層到高層的特征,從而建立起底層信號到高層語義的映射關(guān)系。近年來,谷歌公司、淘寶網(wǎng)、百度公司等掌握大量行業(yè)數(shù)據(jù)的企業(yè)都投入了大量人力物力,開展深度學習技術(shù)的研發(fā)工作,并在語音識別、圖像、在線廣告等領(lǐng)域取得了顯著進展。起初,簡單的機器學習模型比復雜模型更有效的觀點十分流行。例如,簡單的線性模型可能比復雜的神經(jīng)網(wǎng)絡模型擁有更大的應用空間。然而,近幾年深度學習的快速發(fā)展促使人們開始重新考慮這個觀點:或許較復雜的模型或表達能力更強的模型才能充分發(fā)掘出海量數(shù)據(jù)中蘊含的價值;也許運用更復雜的深度學習模型能夠從大數(shù)據(jù)中發(fā)掘出更多有價值的信息和知識。

挖掘大數(shù)據(jù)的價值需要深度模型。如語音識別作為大數(shù)據(jù)機器學習的重要問題之一,在聲學建模部分,訓練樣本達到了幾億到十幾億,谷歌公司在1項語音識別實驗中,發(fā)現(xiàn)訓練后的模型對訓練樣本和測試樣本的預測誤差基本相當,然而一般訓練樣本的誤差要顯著小于測試樣本,出現(xiàn)這樣的結(jié)果只有1個解釋,就是大數(shù)據(jù)中包含豐富的信息維度,即便訓練后的高容量復雜模型,也處于欠擬合的狀態(tài),所以,大數(shù)據(jù)需要深度學習。

與采用人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來深度學習和構(gòu)建特征,能夠刻畫出大數(shù)據(jù)內(nèi)更加豐富的信息。在未來發(fā)展中,深度學習在大數(shù)據(jù)中的應用將會越來越普遍。

相關(guān)硬件設計與制造技術(shù)。硬件架構(gòu)不同會極大地影響系統(tǒng)的處理效率。數(shù)據(jù)處理速度在很大程度上取決于處理過程中處理時間最長的節(jié)點。如果集群中硬件的性能差異過大,會導致大量的計算時間浪費在性能較好的服務器等待性能較差的服務器的過程中。在這種情況下,服務器的線性增長并不一定會帶來計算能力的線性增長。

針對這些問題,有2個技術(shù)問題需要關(guān)注:一是不同結(jié)構(gòu)的硬件之間的匹配,以發(fā)揮最大使用率的技術(shù)問題;二是硬件設計技術(shù)的提升。

為提升數(shù)據(jù)的處理能力,需要使用高性能硬件。例如,近年出現(xiàn)的基于閃存的固態(tài)硬盤(SSD)采用新型尋址方式和硬件結(jié)構(gòu),從硬件層為存儲系統(tǒng)結(jié)構(gòu)的革新提供了支持,為計算機存儲技術(shù)的發(fā)展和存儲能效的提高帶來了新的契機。

參考文獻:

[1]席曄文,楊金民.基于雙布魯姆過濾器的數(shù)據(jù)排重技術(shù)[J].計算機工程與應用.