統(tǒng)計學在社會學中的應用,1950-2000——一個簡要的回顧

統(tǒng)計學方法在社會學中的運用已經(jīng)成功地走過了半個世紀,它對提高社會學這門學科的科學研究水平做出了巨大的貢獻。根據(jù)研究者所使用的數(shù)據(jù)類型的不同,我將戰(zhàn)后統(tǒng)計學方法在社會學中的應用過程分為三個層疊的時期。第一代統(tǒng)計方法起于1940年代晚期,研究者主要運用交互表(cross-tabulations)的方法,同時對關聯(lián)測量 (measures of association)和對數(shù)線性模型(log-linear models)傾注了許多心血,可以說這是社會學對統(tǒng)計學貢獻最大的一個領域。

 

第二代統(tǒng)計方法始現(xiàn)于1960年代,這一時期的研究者主要面對的是個體層次的調查數(shù)據(jù),同時他們將注意力集中在具有線性結構關系(LISREL)的因果模型和事件史分析(event history analysis)上。第三代統(tǒng)計方法在1980年代晚期就已經(jīng)初現(xiàn)端倪,研究者所處理的數(shù)據(jù)已經(jīng)不能簡單地歸入上文所述的任何一個范疇。一方面是因為這些數(shù)據(jù)都具有與眾不同的形式,比如文本和口述,另一方面是因為在與空間的和社會網(wǎng)的數(shù)據(jù)聯(lián)系時,依賴性已經(jīng)成為一個至關重要的方面。盡管有許多新的挑戰(zhàn),但用統(tǒng)計學方法研究這一領域的條件已經(jīng)成熟,最近,幾個主要的研究機構已經(jīng)開始在統(tǒng)計學和社會科學領域展開新的探索。

1 引言

為了紀念千禧年的來臨,美國統(tǒng)計學會月刊(Journal of the American Statistical Association)刊登了一個由大約50篇短文組成的連載,每篇短文都著力概括統(tǒng)計學中的某一領域在即將過去的一個世紀所取得的進展。這一計劃的初衷在于將統(tǒng)計學中一些最優(yōu)秀的成果做一總結,并且突出未來研究中的具有潛力的領域。我寫作了有關統(tǒng)計學在社會學中應用的那篇論文(Raftery,2000)。其他幾篇相關的論文或許會對那些對社會學方法論感興趣的讀者有幫助,這些文章涵蓋了列聯(lián)表(contingency table),對數(shù)線性模型(Fienberg,2000),因果推理在社會科學中的應用(Sobel,2000),人口學(Xie,2000),政治學方法論(Beck,2000),計量心理學(Browne,2000),經(jīng)驗方法在法律科學中的應用(Eisenberg,2000)等諸多領域。

  在我這篇論文的初稿問世后,許多同事都對我的文章發(fā)表了評論,其中有許多評論正確地指出了我在文章中不慎遺漏的該領域的一些重要發(fā)展。然而,由于美國統(tǒng)計學會月刊給我的篇幅有限,我不可能將這些遺漏的部分全部補充進來。幸運的是,社會學方法論(Sociological Methodology)編輯Michael Sobel和Mark Becker請我撰寫一篇在此基礎上有所擴展的專題論文,或許這篇論文能夠為這一不斷發(fā)展的研究領域提供一個更為合適的概括。

  社會學起源于十九世紀中期,孔德(他首先引進了“社會學”一詞),馬克思,韋伯和涂爾干圍繞著工業(yè)革命后新出現(xiàn)的社會,寫下了一系列具有奠基意義的著作。社會學從一開始就使用了定量的研究方法?椎拢@位學科的奠基人,清晰的意識到這門學科應該以統(tǒng)計數(shù)據(jù)為基礎。而涂爾干的《自殺論》更是成為了廣泛運用統(tǒng)計數(shù)據(jù)的典范。

  然而,在二戰(zhàn)以前,可供研究的數(shù)據(jù)都顯得支離破碎,統(tǒng)計方法也比較簡單,僅僅停留在描述性統(tǒng)計的層次上。經(jīng)過仔細的考證Camic和Wilson(1994)認為,F(xiàn)ranklin H. Giddings是美國定量社會學之父。Giddings于1894年在哥倫比亞獲得社會學教授職務,1931年逝世,他將社會學界定為研究集體層面社會現(xiàn)象的一門學科。他認為在很大程度上社會學中的統(tǒng)計分析是將諸多的個體分成不同的類別,同時發(fā)現(xiàn)每一類別的平均特征。從現(xiàn)代統(tǒng)計學角度來看,缺乏對變化的考察是他著作的一個最為顯著的特征。

  從那以后,研究用的數(shù)據(jù)變得越來越復雜,同時統(tǒng)計方法也在不斷發(fā)展,以適應數(shù)據(jù)分析的需要。這時期的統(tǒng)計學方法的發(fā)展,有許多是要歸因于社會學家而非統(tǒng)計學家的努力。Clogg(1992)以及他文章的評論者們有力的論證并且記述了這一點。這種情況部分反映了一個事實,即致力于研究社會學問題的統(tǒng)計學家的數(shù)量相對較少。更多的統(tǒng)計學家傾向于關注藥物學,工程技術以及生物科學方面的問題。這或許反映了在二十世紀后半期不同學科間研究資金分布的不平衡狀況。然而,最近有跡象表明這一情況正在發(fā)生變化,我將在本文的結尾論述這個問題。

  在過去的五十年中,社會學總的趨勢是向更為嚴格、清晰的假設;更大更詳細的數(shù)據(jù)集合發(fā)展;為了擬合數(shù)據(jù),統(tǒng)計模型變得越來越復雜;主要社會學期刊所發(fā)表文獻的統(tǒng)計分析水平也在不斷提高。統(tǒng)計方法在社會學領域成功地走過了半個世紀,使得該學科研究的科學水平有了極大的提高。

  社會學中廣泛的使用了各種各樣的統(tǒng)計學方法和統(tǒng)計模型。在這里,我將集中考察那些由社會學家發(fā)展的,直接由社會學問題所引致的,或者首先在社會學期刊上發(fā)表的那些統(tǒng)計學成就。許多其它的方法,比如邏輯斯蒂回歸等適用于有限數(shù)量的因變量的方法,雖然也廣泛的應用于社會學研究,但是他們是首先在其他的學科中為解決其學科自身的問題而發(fā)展出來的。有鑒于此,盡管這些方法很重要,但我們在這里也僅對他們做一簡要介紹。

  對于從計量經(jīng)濟學而不是從統(tǒng)計學中引入到社會學研究中的統(tǒng)計方法,本文省略了與其相關的討論。這或許對從另一個角度來討論這一問題有所幫助。計量經(jīng)濟學對社會學方法論產(chǎn)生了非常重要的影響,甚至有些人說這種影響比來自統(tǒng)計學本身的影響更為強大,但是在這里除了個別情況,我將不對這種重要的影響發(fā)表評論。

  為了避免引起爭論,我將根據(jù)社會學中不同的統(tǒng)計方法所針對的數(shù)據(jù)類型,而不是根據(jù)這些方法本身對他們加以分類。我將區(qū)分出戰(zhàn)后統(tǒng)計學在社會學中應用的三個不同的階段。每一階段的劃分都是根據(jù)他們通常所適用的數(shù)據(jù)類型做出的:交互表,單位水平的統(tǒng)計數(shù)據(jù),以及種種新的數(shù)據(jù)形式。就像現(xiàn)實中的代際一樣,這三代統(tǒng)計方法前后層疊,而且它們之間的界限也并非十分明晰。雖然這些方法代表著不同的成熟水平,甚至關于他們的起點也并沒有一個統(tǒng)一的界定,但是今天這些方法都依然保持著活力。

  在二戰(zhàn)后開始的這一時期,社會學家們所使用的許多數(shù)據(jù)都是在調查和普查的基礎上以交互表的形式呈現(xiàn)的。我在文中所要討論的第一代統(tǒng)計方法就是以這種方式處理數(shù)據(jù)的。通常說來,這類交互表都只包含很少的變量,例如性別,年齡組以及職業(yè)分類。社會流動表可以稱得上是這種方法中的經(jīng)典之作。這一領域或許是社會學家對統(tǒng)計學貢獻最大的地方。實際上,我們可以說是社會學家們主導了這一分支領域,他們發(fā)展出來的這些方法已經(jīng)超出了社會學領域滲透到其他的學科的研究工作當中。Schuessler(1980)所作的調查在很大程度上反映了第一代方法所取得的成就。

  1960年代早期,社會學家已經(jīng)不必再依賴于計數(shù)的交互表了,來自含有多個變量調查的個體層次的數(shù)據(jù)越來越容易獲得。計算能力也已經(jīng)發(fā)展到能夠輕而易舉地處理這些數(shù)據(jù)的水平。第二代的統(tǒng)計方法正是針對處理這類數(shù)據(jù)而發(fā)展出來的。Blau和Duncan的有廣泛影響力的著作美國的職業(yè)結構(The American Occupational Structure),為這一代的統(tǒng)計方法披上了金色的外衣,而1969年《社會學方法論》(Sociological Methodology)以及1972年《社會學方法與研究》(Sociological Methods and Research)等發(fā)表窗口的建立,更為這一方法增光添色。Edgar Borgatta一手創(chuàng)立了這兩份刊物,當他創(chuàng)立第二份刊物時,《社會學方法論》已經(jīng)遠不能滿足日益增多的投稿和發(fā)表的需要了。這些發(fā)展標志了社會學定量研究方法的新時代的到來。

1980年代晚期,社會學家們勾畫了一個雄心勃勃的計劃,就是對那些難以符合標準交互表和數(shù)據(jù)矩陣要求的數(shù)據(jù)類型進行統(tǒng)計分析(盡管在有些情況下,這些數(shù)據(jù)也可以被強行歸入這些類別中)。這些數(shù)據(jù)包含了文本(text)或敘述(narrative),以及依賴性很強的數(shù)據(jù),比如社會網(wǎng)的數(shù)據(jù)和具有空間參照特性的數(shù)據(jù)。這其中還包含了一些含有多類型變量的數(shù)據(jù)集,比如衛(wèi)星圖片,人種學的紀錄和其他一些定量測量數(shù)據(jù)。第三代的統(tǒng)計方法正是為了處理諸如此類的數(shù)據(jù)而發(fā)展出來的;蛟S是每一個新事物的優(yōu)點,迄今為止,這一代方法保持著它們的活力,包含了大量的令人激動的想法和進展,但是他們還未形成前兩代統(tǒng)計方法所具有的成熟、完備的形式。

  我對社會學中所應用的統(tǒng)計學方法的分類是根據(jù)不同方法所處理的數(shù)據(jù)類型做出的,而不是以方法本身的類型為標準,但這并不意味著目前研究生課程的編排有什么問題;蛟S為了訓練的方便和有效,社會學的主要方法傾向于按照不同的類別組織在一起,比如回歸模型(regression model),有限因變量模型(limited dependent variable model),對數(shù)線性模型(log-linear model),結構方程模型(structural equation model),事件史分析等等。然而,我發(fā)現(xiàn)要分辨統(tǒng)計學方法以往的發(fā)展趨勢以及構想未來的發(fā)展,從最初引致這些方法產(chǎn)生的數(shù)據(jù)的類型入手或許是一條捷徑。

  過去的五十年間,我們已經(jīng)走過了一條漫長的道路。今天,許多社會學研究都是以巨大的高質量的調查樣本為基礎進行再分析的。他們較多的利用在公共基金資助下收集的或者是對研究者公開的數(shù)據(jù)庫,這些數(shù)據(jù)庫通常都有著5000到20000,甚至更大的樣本規(guī)模。這為復證結果提供了一條簡便的道路,同時也有助于社會學建立起可以與自然科學或醫(yī)藥科學相媲美甚至高于這些學科的科學標準;蛟S受以上因素的影響,社會統(tǒng)計學在最近成為了一個迅速擴展的研究領域,許多重要的研究機構也都在最近幾年開始了他們對這一領域的探索。