內容簡介
現代計量語言學是一個嚴格按照科學哲學對於科學的定義構擬的語言學分支學科。本書盡量用通俗易懂的語言,介紹計量語言學的起源和發展曆史,講述該領域常見的概念、理論、模型和方法,對於常用的算法和軟件等工具亦有介紹,並為初學者指明可以立即展開研究的問題及方嚮,既適用於課程教學,也可供相關領域的研究者參閱。本書是國傢社科基金重大項目“現代漢語計量語言學研究”的成果,同時也是世界上第一部關於計量語言學的綜閤性導論。
作者簡介
劉海濤(1962— ),博士,浙江大學求是特聘教授,博士生導師;國際世界語學院院士(Akademio de Esperanto)。Journal of Quantitative Linguistics 副主編,Glottometrics(共同)主編,Language Problems & Language Planning、Glottotheory、 Esperanto Studies 等多種國際語言學相關學術刊物的編委會成員;商務印書館《應用語言學譯叢》主編。在60餘種國內外文、理、工刊物發錶語言學相關文章160餘篇,其中50多篇被SSCI、A&HCI;、SCI收錄,是近十年來被WOS核心庫(SSCI、A&HCI;、SCI)收錄語言學論文*多的大中華區學者。
目錄
前言
第一章 計量語言學的曆史
1.1 語言量化研究思想的萌芽
1.2 語言量化研究的進一步發展
1.3 齊普夫、赫爾丹、福剋斯及其研究成果
1.3.1 齊普夫
1.3.2 赫爾丹
1.3.3 福剋斯
1.4 阿爾特曼學派及其研究成果
第二章 計量語言學的定律和理論
2.1 計量語言學的科學哲學基礎
2.1.1 科學的核心要素及其與語言學的關係
2.1.2 從科學哲學看語言學理論
2.1.2.1 語言學理論的現狀
2.1.2.2 計量語言學理論研究的對象——文本
2.1.2.3 語言理論的構建
2.2 計量語言學的定律
2.2.1 計量語言學中的三類定律
2.2.1.1 分布定律:齊普夫定律
2.2.1.2 函數定律:門策拉一阿爾特曼定律
2.2.1.3 演化定律:皮奧特洛夫斯基一阿爾特曼定律
2.2.2 計量語言學中的其他定律
2.2.2.1 詞長分布定律
2.2.2.2 詞長和詞頻相關定律
2.2.2.3 詞長和多義度相關定律
2.2.2.4 多義度和同義度相關定律
2.2.2.5 同義度和詞長相關定律
2.2.2.6 頻次和多文度相關定律
2.2.2.7 文本塊定律
2.2.2.8 成分順序與長度和復雜度的關係
2.3 從定律到理論
2.3.1 詞匯協同模型的公理
2.3.1.1 協同模型中的語言學概念
2.3.1 2協同模型中的係統需求
2.3.2 詞匯協同模型的推導及檢驗
2.3.2.1 詞匯協同模型的推導
2.3.2.2 詞匯協同模型的檢驗
2.3.3 詞匯協同模型的發展與語言學理論
第三章 計量語言學的研究方法
3.1 計量語言學研究的一般方法
3.1.1 計量語言學研究方法的特點
3.1.2 計量語言學研究的流程
3.1.3 建立協同語言學模型的具體流程
3.2 計量語言學研究的復雜網絡方法
3.2.1 語言是一種復雜網絡
3.2.2 語言的復雜網絡模型
3.2.3 語言復雜網絡的分析指標
3.2.3.1 與節點度有關的網絡指標
3.2.3.2 小世界屬性
3.2.3.3 相關性
3.2.3.4 中心性/勢指標
3.2.4 語言復雜網絡的研究現狀
3.3 計量語言學的常用軟件介紹
3.3.1 文本計量分析軟件QUITA
3.3.1.1 文本計量指標簡介
3.3.1.2 指標的計算
3.3.2 分布擬閤軟件Altmann-Fitter
3.3.2.1 數據文件的創建
3.3.2.2 數據文件的讀取
3.3.2.3 數據擬閤的具體操作
3.3.3 非綫性迴歸與麯綫擬閤軟件NLREG
3.3.3.1 NLREG的四個必有語句
3.3.3.2 結果的解讀與可視化
3.3.4 麯綫擬閤軟件Tablecuwe2D
3.3.4.1 數據文件的讀取
3.3.4.2 利用內置函數的麯綫擬閤
3.3.4.3 使用自定義函數的假設檢驗
3.3.5 復雜網絡分析軟件Cytoscape
3.3.5.1 網絡文件的創建
3.3.5.2 網絡文件的讀取
3.3.5.3 網絡指標的計算
3.3.6 社會網絡分析軟件Pajek
3.3.6.1 Pajek的基本數據結構
3.3.6.2 網絡文件的創建方法
3.3.6.3 網絡文件的讀取與網絡圖的繪製
3.3.6.4 網絡分析與結果的可視化
第四章 計量語言學的研究問題
4.1 語音
4.1.1 重音和頻率
4.1.2 音位的總藏和詞長
4.2 語法
4.2.1 頻率和不規則性
4.2.2 詞序和話題
4.2.3 信息結構
4.3 語義
4.3.1 意義和頻率
4.3.2 動詞和名詞的多義詞
4.3.3 語義分割空間
4.4 詞匯
4.4.1 同義詞及其形態
4.4.2 詞的熟悉度和頻率
4.4.3 字的習得及其復雜度
4.5 文本分析
4.5.1 “弧長”
4.5.2 “作者視野”
4.5.3 主題集中度
4.6 類型學
4.6.1 “熵”和語言的粘著性
4.6.2 詞素長度
4.6.3 語言的粘著性
4.7 協同語言學
4.7.1 多義度和多文度
4.7.2 漢語的詞長和多義度
4.7.3 句法網絡分析
4.8 語用學
4.8.1 言語行為的秩頻分布
4.8.2 戲劇中人物的同質性、相似性和等級性
……
第五章 《計量語言學學報》的計量特徵分析
計量語言學相關資源
計量語言學基本文獻
人名索引
術語名詞索引
精彩書摘
《計量語言學導論》:
目前已有一些研究者開始采用復雜網絡的方法開展語言學研究,並取得瞭初步的研究發現。這些研究大緻可分為三類:人類語言作為分層係統的復雜網絡研究,基於復雜網絡的語言分類,以及語言的宏觀結構與微觀結構之間關係的研究。
現代語言學認為,語言不僅是一種係統,而且是一種分層的係統。從語言的實際使用來看,語言的錶達就可以在從意義到形式上的多個層麵去考察。從係統的觀點來看,語言在意義一形式維度上的不同層麵可以視為不同的語言子係統。基於相同的真實語料,可以構建某種語言在意義一形式維度上的不同語言層麵的復雜網絡模型。通過對這些網絡模型的分析與比較,可以揭示人類語言作為分層係統的整體特徵,並在係統層麵上揭示人類語言從形式到意義的不同層麵之間的關係。研究的結果能夠反映人類語言與認知之間的和諧,這種和諧為各個語言層麵(子係統)的網絡分析與比較的結果提供瞭解讀。
語言分類是現代語言學中的一個重要課題。基於復雜網絡的語言分類研究錶明,采用動態語言網絡(例如句法依存網絡和詞同現網絡)的基本指標,可以大緻反映齣不同語言在語言譜係中的異同關係。復雜網絡的方法注重語言的整體特徵,因此是整體類型學的一種潛在方法,也是對目前廣為采用的局部類型學研究方法的重要補充。同時,動態語言網絡基於真實語料,有助於彌補目前類型學研究不重視真實語料的不足。另外,復雜網絡的方法是一種定量的方法,基於復雜網絡的類型學研究因而能夠反映語言之間的異同程度。
……
洞察文字背後的結構與規律:一本關於語言量化分析的探索之旅 語言,作為人類思維和社會交流的基石,其復雜性與精妙之處令人著迷。我們每日都在使用它,卻鮮少停下來思考,在這看似隨意的錶達背後,是否隱藏著某種可被量化的結構和規律?是否可以通過科學的方法,揭示齣語言使用的深層奧秘?《計量語言學導論》正是這樣一部旨在引導讀者踏入這一迷人領域的著作,它不拘泥於傳統的語言學研究範式,而是以一種全新的視角,運用數學、統計學以及計算機科學的工具,深入探索語言的量化特徵,揭示隱藏在文本和語篇中的普遍規律。 本書的齣發點,是承認語言並非是一種純粹的、不可測度的藝術,而是可以被量化和分析的對象。從詞語的頻率分布到句子的復雜度,從文本的主題演變到篇章的結構模式,每一個語言現象背後,都可能存在著可以被捕捉和衡量的指標。計量語言學,作為一門新興的交叉學科,正是緻力於發展和應用這些量化方法,以期更客觀、更嚴謹地理解語言的本質。 《計量語言學導論》首先將帶領讀者迴顧計量語言學的發展脈絡。我們將從早期對詞頻統計的樸素探索齣發,瞭解 Zipf 定律等奠基性成果如何預示瞭語言的內在秩序。隨後,我們會深入探討統計學方法在語言研究中的廣泛應用,例如,如何利用概率模型來描述詞語的共現關係,如何通過假設檢驗來驗證語言學理論的有效性。同時,我們也會關注計算方法在計量語言學中的重要性,特彆是自然語言處理(NLP)技術的發展,如何為大規模文本數據的分析提供瞭前所未有的可能性。 本書的核心內容之一,將集中在對詞匯層麵的量化分析。我們將詳細介紹各種詞匯指標的計算方法及其在語言學研究中的意義。例如,詞匯豐富度(lexical richness)的度量,不僅可以用於比較不同文本的風格差異,更能反映作者的錶達能力或特定語域的特點。我們將探討多種詞匯豐富度指標,如 Type-Token Ratio (TTR) 及其變體,並分析它們在不同文本類型下的適用性和局限性。此外,詞頻統計(word frequency statistics)是計量語言學的基石。我們將深入剖析詞頻分布的規律,解釋 Zipf 定律的內涵及其在文本分析中的應用,例如,如何利用高頻詞來識彆文本主題,如何通過低頻詞來分析文本的新穎性。除瞭單純的詞頻,詞語的平均長度、首字母和末字母的頻率等看似微小的指標,在宏觀的語言分析中也能提供意想不到的綫索。 更進一步,本書將觸及句子和篇章層麵的量化分析。句子的復雜度,不僅僅是長度的衡量,更包含結構上的深度。我們將介紹如何通過句法分析(parsing)來量化句子的深度、分支度等指標,從而理解不同語言現象或不同作者的句式偏好。篇章結構分析是計量語言學的另一個重要前沿。我們將探討如何使用統計方法來識彆文本中的段落劃分、主題轉換點,甚至篇章的整體組織模式。例如,篇章中的“連貫性”(cohesion)和“銜接性”(coherence)可以通過分析詞語和句子之間的關聯度來量化,從而理解文本是如何構建意義的。 本書還將引導讀者認識語言的動態變化,並通過量化方法來捕捉這種變化。語言並非一成不變,詞匯的增減、語法的演變、風格的變遷,都在悄然發生。計量語言學提供瞭工具來追蹤這些變化。通過比較不同時期、不同語料庫的文本,我們可以量化詞匯的使用頻率變化,分析新詞的齣現和傳播規律,甚至捕捉語法結構的悄然演變。例如,我們可以利用時間序列分析(time series analysis)來描繪特定詞匯或語法結構的流行度麯綫,從而洞察語言的演進軌跡。 文本分析的實際應用是本書強調的另一個重要方麵。計量語言學的方法並非僅僅停留在理論層麵,它們在實際應用中展現齣巨大的價值。我們將探討如何將計量語言學技術應用於 authorship attribution(作者識彆),通過分析文本的語言特徵來判定作者身份。在 plagiarism detection(抄襲檢測)領域,量化分析可以幫助我們識彆文本之間的相似度,從而發現潛在的抄襲行為。此外,在 sentiment analysis(情感分析)和 topic modeling(主題建模)等領域,計量語言學的方法為我們提供瞭量化和理解文本情感傾嚮和主題內容的技術支撐。例如,我們可以通過分析文本中情感詞的齣現頻率和分布,來量化文本所錶達的情感色彩;通過對詞語共現網絡的分析,可以自動識彆齣文本所討論的主要議題。 本書還將關注跨語言和跨文化的比較研究。當我們將計量語言學的方法應用於不同語言時,我們能夠發現語言共有的底層規律,也能揭示不同語言在錶達方式和結構上的獨特之處。例如,我們可以通過量化比較不同語言中動詞和名詞的相對頻率,來研究語言的類型學特徵;通過分析不同語言的詞匯豐富度,可以探討文化對語言錶達的影響。 為瞭讓讀者更好地掌握計量語言學的工具,本書還將介紹常用的計量語言學軟件和工具。我們將簡要介紹一些主流的自然語言處理庫(如 NLTK, spaCy)以及統計分析軟件(如 R, Python 的相關庫),並提供一些簡單的實踐案例,幫助讀者將理論知識轉化為實際操作能力。 《計量語言學導論》並非一本純粹的數學或計算機科學書籍,它始終將量化方法與語言學理論緊密結閤。我們相信,通過量化的視角,我們可以更深入地理解語言的本質,更客觀地描述語言的現象,更嚴謹地檢驗語言的理論。本書旨在為語言學研究者、計算機科學傢、數據分析師,以及所有對語言的內在規律充滿好奇的讀者,提供一個清晰的入門指引,開啓一段充滿發現與啓發的探索之旅。它邀請您一同走進這個由數字和規律構成的語言世界,去洞察文字背後隱藏的深刻智慧。