關于“大數據出版”的一些體會和猜想
“大數據時代”一詞,足顯大數據意義之大、影響之深。在PB級尺度下,十億分之一PB的一本書非常渺小。如果互聯網還像現在這樣無序,它的被發現概率和影響力之小便可想而知。由此引發一個問題:出版社和圖書館將如何面對大數據時代?過去,我們只有一個思路,就是“大數據有序化”,希望通過對海量文獻數據的規范化、自動化加工,以及對相應檢索技術的改進完善,解決海量文獻的內容發現問題。但這樣做的結果,就是將文獻資源變成“數據孤島”,獨立于互聯網大數據這一虛擬社會之外,內容價值得不到充分的發掘和利用,整體的影響力也不足以支撐內容產業的大發展。所以,就“大數據時代對出版和圖書館的機遇和挑戰”這一話題來講,就是要不要搞“大數據出版”和“大數據圖書館”?
“大數據出版”的可能性。以同方知網出版的《中國統計年鑒數據庫》(CSYD)為例,CSYD收錄了1949年以來中國正式出版的全部統計年鑒和年報,以及由國家統計局以月份和季度為單位發布的全部統計數據,反映全國各鄉鎮以上地區和各行各業的經濟、社會、文化基本情況及其變化。通過挖掘分析,像產值、產量、人口這樣的基本統計指標約1200萬個,但數據量卻只有1.5%PB。
基本統計指標是國家統計局等有關統計部門,根據相關法律法規制定的可以獨立反映我國各方面基本情況的數據,但人們在研究分析過程中關心的是大量有意義的數據,姑且稱之為“衍生指標”,其并沒有在統計年鑒或月度統計報告中直接呈現(出版)出來,但可以由基本統計指標通過某種運算得到,其量級估計有基本指標數的10倍。如果我們出版了這些衍生指標,CSYD將達到0.15PB,接近大數據尺度。
發布統計數據的一個重要意義,就是產生對數據的評價。但是,現有的統計數據不包含評價數據的數據。加上必要的評價數據,CSYD將可能達到PB量級。從這個例子來看,如果我們出版者真正理解內容,不斷地深入挖掘各種用戶和讀者研究和學習的需求,把出版看成是對讀者提供知識服務的過程,出版大數據是有可能的。現在人們議論的“碎片化出版”“動態出版”“重組出版”,其實就有“大數據出版”的一些寓意,只不過缺乏“知識服務”這個市場概念的統領,而失去了明確的動機和目的。
“大數據出版”將產生怎樣的應用價值?“大數據出版”不應當是為大而大,“碎片化出版”也不能為碎而碎,大數據的本質特征,是因為其本身具有極大的知識挖掘價值,而成為一種極為重要的研究對象和資源。還說CSYD,它不僅是一個經濟社會統計指標數據的大集合,更重要的它將是研究真實中國社會、經濟發展變化規律的“社會科學實驗室”。通過CSYD,發現“數據關系”,特別是因果關系,是人們對這一出版物最大的期望和追求。為此,我們為CSYD提供了各種計算軟件,讓人們可以隨意利用數據去發現“數據關系”,并配置了協同研究平臺、協同創作平臺,在這個平臺上發表的研究成果,可以發布研究的全過程,其他人可以重復、驗證他的工作。可見“大數據出版”,不僅改變了出版方式,更可以改變認識方式和研究方式,成為人們探索世界的一種全新的觀念和手段。
“大數據出版”需要觀念創新。還以統計年鑒為例,實現“大數據出版”,首要的是出版觀念轉變。
從出版統計年鑒圖書,轉變為出版統計數據。應該把有意義的每一條數據及其數據關系,都看成是一個出版產品,才能使每個數據體現其自身的價值。
從發布統計數據信息,轉變為回答讀者的問題。發布本身不是唯一目的,更重要的是使這些內容產生價值,滿足讀者發現、理解、解決問題的需要。
從提供數據,轉變為提供數據服務。提供數據屬于信息服務,而數據服務還包括數據使用目的、使用方式的服務。因為,只有做好這些服務,才能充分實現數據的使用價值和經濟價值。
“大數據出版”如何營銷?一個大數據出版物一片“云”,還是一個孤云,營銷模式和以往的數據庫差不多,市場不易做大。如果把“大數據出版”的概念再加以拓展,將其中每一條數據“出版”到互聯網上更大的大數據云層之中,就是使微數據與云層中的微數據發生“強耦合”,那么,大數據的內容將與整個互聯網虛擬社會融合到一起,而無處不在。比如統計數據和新聞、論文、圖書、博客中相應內容關聯起來,就可以用來正確地解釋種種撲朔迷離的現象和千奇百怪的問題。
在這樣的“大數據出版”概念下,出版物不需要營銷,出版本身就是最重要的營銷。這個場景的出現,難道不是我們很多出版人夢寐以求的嗎?
以上討論,一己之體會,供大家批評。
(作者系中國學術期刊電子雜志社社長、同方知網技術公司總經理。本文系作者在研討會上的發言,刊登時略去“大數據圖書館”部分。)