[關鍵詞]大數據環境 信息組織 數據描述 數據互聯 數據整合。
[Abstract]This paper firstly indicate tha,under the big data environment,information organization should play roles in thebelow aspects:classifying,recording,describing,concentrating big data,navigating,selecting,evaluating and managingbig data,as well as exchanging and sharing big data.Information organization will face many problems and challenges in theprocess of dealing with big data.The problems and challenges include:the role of information organization can easily be ig-nored,the disciplinary boundaries of information organization is gradually blurring,both automation and intelligence level ofinformation organization are insufficient,existing tools and methodologies are not enabled information organization to handlethe tasks of processing big data.Based on the above understandings,in the future,trends and tasks of information organiza-tion can be summarized as the following five aspects:(1)Building quality projects of information organization to highlight theimportance of it in the big data environment.(2)Improving the automation and efficiency level of information organization withbig data techniques.(3)Organizing big data semantically with the help of the stock of semantic resources.(4)Establishing new-type data representation mode.(5)Promoting the interconnection and integration of data under the background of the open-datamovement.
[Key words]The big data environment Information organization Data description Interconnection of data Integration ofdata.
1引言。
數據與信息是重要的生產要素和戰略資產[1],已在全球形成共識。然而,失去控制和無組織的數據和信息卻不能很好地發揮戰略資產的作用[2].信息組織是對文獻、數據等信息資源對象進行分類、標引、描述、揭示,使之有序化、系統化的過程,其目的恰好是將無序的、分散的數據和信息整理成有序的信息資源,保證用戶的有效獲取和利用。因此,信息組織對于大數據資源的管理與利用具有重要作用。
同時,當前的大數據環境給信息組織帶來了巨大的影響。正確地識別這些影響,對于凝練信息組織的研究方向、使其適應當前的發展環境、與國家的重大需求對接、為國家大數據戰略的實施提供智力支持,具有非常重大的意義。
本文將通過回顧信息組織在傳統環境下的職能和作用,提出信息組織在大數據環境中應該發揮的作用,以及在發揮這些作用的過程中將面臨的困難和挑戰,針對這些困難和挑戰,明確信息組織在大數據環境下的發展趨勢以及需要承擔的具體任務。
2信息組織在大數據環境中應發揮的作用。
海量、異構、動態變化的數據使得信息組織的任務變得更為復雜,具體體現在數據本身的復雜性、計算的復雜性和信息系統的復雜性等方面[3].這也是大數據處理任務面臨的普遍問題,有賴于大數據存儲、大數據計算、大數據挖掘與分析等基礎性技術的突破和迭代。從信息組織的角度來說,我們并不期望它解決大數據的所有問題,但至少應該在數據的分類、描述、約減、評估、交換共享等方面發揮重要作用。
總的來說,信息組織應該在以下幾個方面發揮作用:
(1)大數據資源的分類。分類是人們認識事物、區分事物以及分析問題的基本方法,也是人類思維的基本形式。作為信息組織的基礎性方法,分類法用分類號來表達各種概念,將各種概念按學科性質進行分類和系統排列,將知識按照學科門類加以集中,便于用戶瀏覽檢索[4,5].分類法最初用于圖書館文獻信息資源的分類排架、建立分類檢索系統,在網絡環境下又衍生出網絡主題分類目錄、各類網站的自編分類體系、大眾分類法等形式。
在大數據環境下,分類的方法應該發揮更重要的作用,以電子商務大數據為例,在數據生成的過程中,信息就是按照一定的門類(比如網站自編的商品分類體系)被采集的。當前,還需要建立多維度的大數據分類(分級)體系,比如根據大數據序化的程度進行分級,分為序化程度高、序化程度一般、序化程度低三種,選擇判斷出當前急需進行序化、能夠進行序化的大數據類型,針對序化程度高的數據,研究重心在于整合和互聯,針對序化程度低的數據,研究重心在于描述和揭示。
在信息組織的研究和實踐中,必須根據不同的大數據類型采取相應的策略,并決定數據描述和揭示的詳細程度以及深入程度。比如根據數據處理方式,大數據可分為適合于批處理的大數據與適合于流式計算的大數據,信息組織應主要著眼于可存儲、可進行批處理的大數據類型。根據處理響應時間,大數據可分為需要實時/準實時計算的大數據與非實時計算的大數據,根據響應時間的要求不同,信息組織介入的方式應有所區別。根據數據價值、數據分布狀況、數據類型等指標決定信息組織的深度,對于價值密度極其稀疏的大數據,往往只需要進行淺層的組織與序化,對于分布式存儲的數據,重點要實現數據劃分和互操作,對于流式數據,則需要在數據生成之前,就建立好數據描述和表示的標準。