在這個快速變革和發(fā)展的新時代,人文社會科學研究的內涵與外延處在不斷深化和拓展之中,電子蹤跡、社交媒體、數字文本以及空間位置信息等大規(guī)模數據已經廣泛滲透應用于人文社會科學研究之中,當代人文社會科學研究的新場景值得我們重視和思考。
當代人文社會科學研究的新場景
·大數據時代,從典型案例探析研究新動向
人文社會科學研究的真正價值源自于研究問題。把握人文社會科學研究的發(fā)展趨勢在于尋求研究問題的解決路徑。相同的研究問題可以從不同學科領域、不同角度以及不同側重點進行分析。在大數據時代,運用信息技術有助于人們更加深入透徹地了解人文社會科學研究中的新動向,例如,進一步跟蹤和關注以下具體研究問題。
第一,實時洞察熱點事件。大數據在各行各業(yè)的應用,能夠即時且最大化的體現數據價值。如央視新聞采用百度定位數據展示春運人口流動圖景;印度研制的MogIA人工智能系統(tǒng)用網絡數據四次成功預測美國大選結果;谷歌研發(fā)的GFT流感趨勢預測系統(tǒng)基于用戶搜索記錄預測美國的流感趨勢;等等。過去用傳統(tǒng)數據進行研究具有很大的時滯性,而實時性數據的獲取,能夠有效提升人們發(fā)現世界的真實度,人文社會科學研究也可以得到更多有意義的結論。
第二,解讀人類行為規(guī)律。社交媒體數據為解讀人類行為規(guī)律或行為傾向提供了很好的機遇。在過去,研究人的行為主要通過問卷、訪談、實驗等方法?,F在社交媒體成為提供數據的重要場所,研究人員不需要被測對象響應和配合,也不需要等待被測對象,因此給人文社會科學研究提供了很大方便。
第三,用科學來破解文學爭議。如辨別紅樓夢前80回和后40回作者是否為同一作者以及《靜靜的頓河》的作者之爭等等,這些文學問題都可以通過統(tǒng)計分析、數據挖掘、機器學習等手段進行分析。這種用數學解決文學問題的方法有一個形象的說法叫“文學指紋”,即像識別指紋一樣來識別不同作家的文學風格傾向。同樣,這也體現出文學在研究思維上發(fā)生的重大轉變。
第四,宏觀分析歷史變化。大數據為全面、宏觀的分析歷史變化提供了充分條件。如武漢大學社會學系龔為綱博士用網絡數據分析西方社會民粹主義思潮的歷史演變;Maximilian Schich等學者用名人出生地和死亡地的數據研究文化藝術中心的歷史遷移問題;等等。過去的研究很難對歷史變化有整體性把握,研究結論往往與研究者個人視野有很大關系,只能分析解決局部問題,而數據處理技術和分析手段出現后,我們能夠通過數據的直觀展示了解到歷史變化過程以及歷史事物。
第五,探究重大社會問題。通過數據中隱藏的規(guī)律來揭示重大社會問題。過去應對復雜非線性社會問題,最常用的是實證化研究,當時這些研究的解釋力度不夠。而現在可以用“數據發(fā)現邏輯”,解決以往難以攻克的社會問題,有助于國家相關政策的制定以及維護社會穩(wěn)定。
我認為,如果數據方法和分析手段運用得當,真正融入人文社會科學的重要問題中,那便是優(yōu)秀的、具有影響的研究成果。
·技術環(huán)境變化,創(chuàng)造有利研究條件
從當前人文社會科學研究場景中可以看出,有許多研究以前行不通而現在可以進行了。實際上是技術環(huán)境變化創(chuàng)造了有利的研究條件。
比如說,現實世界的轉換路徑:數字化。數字化是一個時代感很強的術語,也是一種常見的現實應用場景,指將復雜多變的信息對象,如聲音、顏色、圖形、圖像等,轉換為二進制,由計算機統(tǒng)一處理。從而人們可以在另外一個世界(空間)去研究原來現實中的一些問題。數字化的理念以及數字化工具和技術能力應用于很多領域,解決了許多基礎性問題,如數字化書籍、報紙雜志、圖書館、博物館等等。
再比如,取之不盡的數據來源:物聯(lián)網。物聯(lián)網技術是在互聯(lián)網基礎上實現“物物互聯(lián)”。這里的“物”能夠為認識社會經濟現象提供好的研究基礎和平臺。對于人文社會科學研究而言,取之不盡的數據是科學新發(fā)現的源泉,物聯(lián)網所帶來的研究魅力在于數據的獲取空前方便。物聯(lián)網可以獲取海量的實時數據,而這些數據是運用傳統(tǒng)工具和手段所不能獲取的。
還有就是即時可用的計算環(huán)境:云計算。云計算的概念從2006年的搜索引擎大會上提出,到現在已經10多年。它主要是指一種計算資源的共享,帶來數據分布式存儲和計算,這種分布式存儲和計算使得研究人員不再擔心傳統(tǒng)數據存儲和處理的局限。傳統(tǒng)統(tǒng)計學的目標是用盡可能少的數據來發(fā)掘出盡可能重大的發(fā)現,長此以往,研究人員就形成了減少數據收集的習慣,這種縮減實際上是一種人為的限制。而云計算意味著更大的臨時存儲空間和計算環(huán)境,因此給了研究人員一個信心:面對復雜的研究對象,不需要做過多的精減。
值得重視的移動泛在的信息行為:智能手機和終端。人人持有的智能手機和終端形成了信息獲取和信息生產的泛在環(huán)境。用戶不僅可以無時無刻、隨時隨地生產數據,還可以獲取數據、傳遞數據?,F在,很多數據通過移動手機和終端不斷產生、不斷傳遞,使得信息傳遞模式、人類信息行為表現都呈現出新的特征,而且移動信息服務又與生活經濟發(fā)展密切相關。這樣的變化不僅為研究信息傳播、用戶行為提供了支持,而且也豐富了人文社會科學的研究途徑。
無孔不入的時空分析:GIS技術。地理信息系統(tǒng)(GIS)技術與人文社會科學研究特別相關,GIS是上世紀60年代研究地理的學者提出來的,主要是為了獲取、存儲、檢索、分析、顯示空間的定位數據,隨著技術的發(fā)展和成熟,其發(fā)揮的作用也愈發(fā)顯著。人文社會科學研究之所以要重視GIS技術,因為其研究對象不僅有時間屬性,還有空間屬性。人文社會科學中很多現象并不能像自然科學研究中用數學、物理、化學的方法來測量,但是GIS技術為直接或間接研究人文社會科學空間提供了可能。
數字與現實世界融合:VR/AR技術。虛擬現實/增強現實(VR/AR)技術借助3D模型、感知交互、渲染處理、網絡傳輸等技術,將仿真和現實物理空間融為一體,建造第二自然(也可以稱為擬象),實現對物理空間的原型事物的模擬和構建,以及對無原型事物的生成和創(chuàng)造。這類技術可以充分模擬現實世界可能發(fā)生的現象、發(fā)展的狀態(tài),未來可能會成為人文社會科學研究的實驗室或者試驗場。
·不同數據來源提供研究保障
計算機技術的發(fā)展極大地改變和豐富了人文社會科學研究的數據來源。依據不同的標準,可以將人文社會科學研究的數據細分為不同的類別,針對性地應對不同研究。
依據數據產生的方式,人文社會科學研究數據可以分為被動產生的數據、主動產生的數據和自動產生的數據。被動產生的數據,表示被人和機器共同控制。主要來源于一些業(yè)務運營管理系統(tǒng),伴隨移動的運營活動產生并記錄在數據庫中,如超市、醫(yī)院、研究機構、交通部門的管理系統(tǒng)中產生的數據。主動產生的數據,表示人的主動權(控制權)較大。這類數據是用戶在不同的移動手機和終端,為了交流、交易而產生的數據。自動產生的數據,表示數據的主動權完全歸于機器。這類數據主要為機器和傳感器數據,如射頻識別(RFID)信息、GPS等定位系統(tǒng)數據等。
依據數據的來源,人文社會科學研究數據可以分為電子蹤跡、用戶生成內容(UGC)、數字化文本和空間位置數據。電子蹤跡數據指用戶在使用互聯(lián)網以后留下來的蹤跡,主要包括點擊流和搜索日志,如用戶點擊網絡情況、瀏覽情況以及IP地址等等都屬于電子蹤跡范圍。用戶生成內容(UGC)數據,包括社交媒體數據,以及采用群體智慧機制的互聯(lián)網百科數據等等。數字化文本是電子化處理后形成的文本數據,包括各類數字化圖書館網絡數據庫存儲的文本數據等??臻g位置數據是利用GPS等定位系統(tǒng)獲取的定位數據。
依據數據的實時性,人文社會科學研究數據可以分為熱數據和冷數據。人文社會科學的研究問題與數據實時性具有一定的關系。有些研究是利用實時性數據研究現實性問題,有些研究是利用檔案性數據研究傳統(tǒng)性問題。這就反映出研究中數據的熱度。據此,可以將反映實時動態(tài)的實時性數據稱為熱數據,將保留多年的檔案性成熟數據稱為冷數據。
·新場景中的新老問題需要重視
在新的技術環(huán)境和數據產生條件下,人文社會科學研究的問題出現了變化,從本質上講,這些變化主要包括以下兩類。
第一類是新場景中的老問題。這類問題是人文社會科學研究中一直都存在,只是過去傳統(tǒng)技術條件下沒有辦法揭示的問題。如上述的文學指紋問題、社會思潮以及文化藝術中心變遷問題等等。這些問題,在新場景中借助新的數據來源和獲取方式、處理分析工具,能夠順利得到解決。另外,在社會科學當中長期爭執(zhí)的整體與局部的問題,也是這類傳統(tǒng)的問題。
第二類是新場景中的新問題。在新場景當中也出現了過去沒有的問題,比如說互聯(lián)網、數字技術、VR/AR技術所帶來的虛擬空間,隨之出現的虛擬社區(qū)、虛擬企業(yè)、人造現實、第二自然,以及由此產生的虛擬犯罪問題、倫理問題,人文科學關注的人的價值問題,實際上都是新場景中的全新問題。這些全新問題今天已經有人提出,但是目前很少看到這方面研究,而這些問題對人類的影響重大。
當代人文社會科學研究的新視野
·人文社會科學與自然科學應當相互學習借鑒
人文社會科學和自然科學不同之處主要表現在自然科學現象具有同質性,而人文社會科學現象具有異質性。所以自然科學研究強調可重復性。不同的研究人員做同一個實驗,其結果應該是相同的且可以重復。但人文社會科學研究不一樣,因為人文現象、社會現象具有異質性,這種異質性導致了人文社會科學研究的差異性。盡管兩者有不同,但自然科學家和人文社會科學家還是要相互學習和借鑒。不能強調它們的區(qū)別,而忽視了共性。很多自然科學的理論、方法、技術,都能夠運用于人文社會科學研究;人文社會科學的研究也可以為自然科學提供很好的場景和指導。
當前,很多自然科學家開始關注人文社會科學中的問題,這值得鼓勵。人文社會科學只有成為一個開放的學科,才能在新的方法、理論、技術上產生質的飛躍。但同時要引起人文社會科學家重視的是,當自然科學家關注這些問題的時候,如何讓本領域的社會科學家們繼續(xù)發(fā)揮主導作用。
·注重不同研究取向和方式的結合
數據驅動與模型驅動相結合。傳統(tǒng)研究強調模型驅動,通過提出構想、假設,收集數據來驗證模型。但模型驅動的局限是只能在有限的范圍內,通過有限的參數、有限的變量來提煉出模型。許多模型是在小世界范圍內非常理想的假設條件之下提出來的。當然,模型驅動也有其明顯的優(yōu)勢:直接、簡潔、具有理論吸引力。但在有限場景當中,它只能解決部分的問題,而且沒有辦法應對豐富多樣的數據來源,所以要把兩者結合起來,強調模型驅動,也要強調數據驅動。
演繹邏輯和歸納邏輯相結合。無論是演繹邏輯還是歸納邏輯,在大數據支持的研究中都可以采用。從演繹邏輯出發(fā),使用大數據進行檢驗,可以稱之為理論驅動或模型驅動;從歸納邏輯出發(fā),使用大數據進行描述和分析,可以稱之為數據驅動。兩種邏輯并存,理論驅動和數據驅動并存,可能是使用大數據進行研究的一個特點。以往的抽樣數據研究,主要是理論驅動和演繹邏輯;而質性研究,主要是數據驅動和歸納邏輯。大數據將兩種邏輯結合起來,可能是其優(yōu)勢所在。
相關分析與因果分析相結合。在大數據出現時,人們認為因果分析不再重要了,認為大數據只重視相關分析。這是一種誤解,因果分析仍然非常重要。從古希臘開始,西方哲學就把因果關系作為科學的核心,因為任何科學問題都要從原因分析結果,從事物之間的因果關系來發(fā)現基本的規(guī)律。但在大數據環(huán)境中,發(fā)現“因”和“果”之間的關系并不那么容易。因果關系其實有三個非常重要的條件:首先,因果是一種時序關系,“因”在前,“果”在后;其次,因果之間有實證的相關性;再次,因果關系不是第三變量的結果。這三個條件在大數據環(huán)境下很難揭示,但不能以此來否認因果關系的重要性。相關關系是因果關系的必要條件,在相關關系基礎之上分析因果關系,這樣可以避開人文社會科學在因果分析中的內生性問題。
空間分布與時間序列分析相結合。時間和空間是界定人類社會發(fā)展和人類文明的基本維度。其實人文社會科學在很長一段時間里面,非常強調時序分析,因為時序分析是和因果關系非常密切聯(lián)系在一起的。上世紀七十年代以后,由于技術的發(fā)展,出現了對空間位置的發(fā)現和揭示,所以開始關注到空間問題,這里的空間不僅僅是地理空間,還包括權力空間、關系空間、心理空間、信息空間等等這樣一些社會空間。除了時間之外,空間的位置分布也非常重要。時間和空間共同被視為社會現象的環(huán)境或舞臺。對于許多人文社會科學現象,如果只關注時間,而忘記空間,那么很可能就丟掉了相關性;而如果忽視時間,那就在很大程度上忽視了因果性。其實這兩者有非常密切的關系,缺一不可。
部分探索與整體研究相結合。為什么要強調這個問題?因為歷來很多社會科學家、哲學家都是反對整體性研究的,他們認為從整體上去認識社會發(fā)展的規(guī)律是不可能的。波普爾就是這個學派的代表。但在科學當中,無論是自然科學、人文社會科學,“整體”在任何時候都非常重要。當今人文社會科學的新場景提供了一個認識總體、研究總體、檢驗總體、測試總體的條件。所以可以把整體和局部結合起來認識各種復雜的人文社會科學現象和問題。
人工分析與工具應用相結合。古人云“工欲善其事,必先利其器”。在當前的大數據場景下,不僅要重視傳統(tǒng)的人工分析,還要重視工具的運用,尤其是人工分析和工具的應用相結合。不同領域數據的長期積累和快速增長帶來了新的數據分析要求,相關的處理、分析和可視化等技術迎面而來。而且在不同問題上需要不同的工具和方法,這些工具和方法并不容易被掌握和詮釋。因此,人文社會科學研究如何吸收和利用這些強大的技術手段,將傳統(tǒng)的人工分析與工具應用相結合,這是在研究過程中需要注意的。
·有形與無形研究工具的產生
縱觀幾百年科學研究的歷史,不難發(fā)現,任何學科的發(fā)展都離不開特定的研究工具。正如顯微鏡對于生物學、天文望遠鏡對于天文學發(fā)展那樣,人文社會科學的發(fā)展同樣離不開特定研究工具的發(fā)明和使用。這些研究工具既包括有形研究工具,也包括無形研究工具。
互聯(lián)網+時代的有形研究工具,是大數據催生數據分析手段。有形研究工具主要是以數據分析、加工、處理、獲取的這些工具為代表。例如在數據采集階段,根據不同領域的數據來源有不同的數據采集工具,有日志采集、網絡數據采集,傳感器數據采集;在數據存儲階段,除了關系型數據庫和數據倉庫,建立在分布式存儲基礎上的云存儲已經成為大數據存儲的主要趨勢;在數據分析階段,傳統(tǒng)的分析方法無法滿足數據分析需求時,出現了新的大數據處理工具,包含:批數據處理、流數據處理、以及非結構化數據處理工具。在數據呈現階段,除了面向大數據主流應用的可視化技術,還有人機交互技術等等。
無形研究工具是網絡環(huán)境變革傳統(tǒng)研究方法。網絡環(huán)境消除了物理空間的限制,許多在線下進行的研究可以在線上進行,在網絡環(huán)境中,人文社會科學研究以傳統(tǒng)的研究方法為基礎,不斷呈現出新的思路和方法。這些思路和方法形成了許許多多無形研究工具,包括互聯(lián)網實驗法、在線數據分析法、眾包、虛擬民族志、文化組學等等。作為一種全新的社會形態(tài),網絡環(huán)境為各項社會信息活動提供了新的存在空間,由此獲得改進和創(chuàng)新的人文社會科學研究方法。
未來研究需關注的幾大問題
盡管當代的很多技術、方法對人文社會科學研究至關重要,但也帶來了很大的影響,所以在應用過程當中還需要關注以下問題。
一是數據碎片化和模糊化。數據來源于不同的時間和空間,因此大數據往往具有多元性和涌動性。對科學研究而言,允許一定的模糊性,但需要重視這個度,對數據要采取去語境化、規(guī)范化的操作,把大數據、來自不同場景的海量數據變成智慧數據,才能夠支持人文社會科學研究。
二是隱私與安全。這是人們非常關注的問題。在大數據環(huán)境下,既要強調數據開放,又要強調隱私保護,就形成了矛盾。解決這個問題,不僅需要法律的改進,還需要技術上的突破。
三是技術障礙。大數據應用于人文社會科學研究,必然涉及很多新的工具、技術問題。數據從獲取、分析到呈現,還有各種各樣的無形研究工具都離不開技術。實際上也給人文社會科學研究人員提出了挑戰(zhàn),如果技術沒有掌握,會不會陷入望“數”興嘆的尷尬境地?應對技術障礙,人文社會科學研究人員首先應該掌握一定的技術工具和方法,同時也需要加強與其他學科領域的技術人員的合作。
四是研究對象的社會文化意義。從人文社會科學角度看,任何數據在人文社會科學當中其實都是人及其行為的符號,是人類自身活動的結果,是一種具有社會文化意義的建構行動。忽略人所在的社會文化的價值本性,而無限放大數據效益及其影響力,可能會收到相反的效果。如果人及其行為都僅僅被看作一個個孤零零的數據符號,就很難從個體數據去推導群體樣態(tài)和社會構成。
五是人文社會科學的美學價值。在人文社會科學研究中,研究者個人的價值取向和個性非常突出。如果在大數據的場景當中,泯滅這種研究的個性,也就犧牲了研究的初衷。因為人文社會科學,除了與自然科學一樣要發(fā)現客觀事物發(fā)展規(guī)律,還承載著傳播傳統(tǒng)文化、促進現代文明的歷史使命。所以不能忽視它的美學價值,美學價值源于研究人員的個性,也是人文社會科學研究的個性。
六是人文社會科學的抽象思維和思辨。無論是人文社會科學,還是自然科學,都要強調抽象思維。不僅要強調抽象思維,還要強調思辨,在大量的事實觀察的基礎之上,抽象、揭示、發(fā)現規(guī)律。無論用什么樣的方法去獲取數據,這些數據都只是研究的素材,并不代表世界是怎么運作的,而世界的運行規(guī)律隱藏在這些數據當中,需要主體通過抽象思維去揭示和發(fā)現這些規(guī)律。
七是人文社會科學的科學想象。為什么哲學家會比自然科學家更能發(fā)現自然的規(guī)律?實際上這是因為哲學家視野更抽象、站得更高。就像愛因斯坦、牛頓這樣的大科學家,其實他們首先就是一個哲學家。愛因斯坦通過思想實驗發(fā)現了相對論,牛頓通過觀察、思考和科學靈感揭示了經典力學的規(guī)律,曹雪芹想象和描繪的“太虛幻境”早就為我們展示了今天才有的VR/AR技術場景。所以特別強調利用這些沒有生命的數據和工具,去發(fā)現活生生的“人”的行為,通過科學的想象和實踐去發(fā)現重要規(guī)律,這也是人文社會科學研究在任何時候都不可忽略的。
數字化時代為人文社會科學研究帶來了新的歷史發(fā)展機遇,新的研究場景以及新視野、新方法、新工具的出現,意味著中國特色哲學社會科學研究體系的構建應把握大數據驅動下的研究特點與規(guī)律,緊跟信息技術發(fā)展步伐,不斷推進人文社會科學理論體系的創(chuàng)新和研究方法的創(chuàng)新。換言之,不僅要主動運用數據思維和有形無形的研究方法來回答和解決好我國改革發(fā)展所面臨的重大理論和實踐問題,還要立足國際學術前沿,熟練推進大數據、人工智能等信息技術與人文社會科學研究的深度融合,并針對當前人文社會科學研究的關鍵問題,提出中國學者的原創(chuàng)性理論貢獻,進而全方位、全領域、全要素地建構數字化時代人文社會科學研究體系。
【演講人簡介】馬費成,1947年出生,武漢大學人文社會科學資深教授、國家教學名師、教育部人文社會科學重點研究基地武漢大學信息資源研究中心首席科學家、武漢大學大數據研究院院長。長期從事情報學理論方法、信息資源規(guī)劃與管理等領域的教學科研工作,承擔國家社會科學基金重大項目、教育部哲學社會科學重大課題攻關項目、國家自然科學基金重點項目等國家及省部級科研項目30余項,出版著作20余部,發(fā)表論文200余篇。