商品參數
基於網絡媒體監測語料庫的性彆語言差異研究 |
| 曾用價 | 72.00 |
齣版社 | 科學齣版社 |
版次 | 1 |
齣版時間 | 2017年11月 |
開本 | 16 |
作者 | 王宇波 |
裝幀 | 平裝 |
頁數 | 204 |
字數 | 200 |
ISBN編碼 | 9787030545947 |
目錄
目錄
當一個語言學研究的排頭兵
序言
第*篇 字詞篇
第*章 漢字使用的性彆差異 3
第*節 網絡媒體監測語料庫及語料來源 3
一、語料庫的選擇及依據 3
二、博客語料篩選的過程 4
第二節 漢字使用性彆差異的總體情況 6
一、總字次、字種數和使用頻率比較 6
二、漢字覆蓋率比較 6
第三節 漢字字頻的性彆差異 8
一、高頻字比較 8
二、低頻字比較 9
三、高頻字與《現代漢語常用字錶》比較 10
四、高頻字構詞能力的性彆差異 11
第四節 男女兩性共用字與獨用字 13
第五節 本章小結 16
第二章 詞匯使用的性彆差異 17
第*節 詞匯使用性彆差異的總體情況 17
一、總詞次、詞種數和詞匯多樣性的性彆差異 17
二、詞匯覆蓋率的性彆差異 18
第二節 詞匯使用頻率的性彆差異 19
一、不同頻次範圍的詞種數 19
二、高頻詞比較 21
三、高頻詞與字種數關係 23
四、高頻詞詞性分布的性彆差異 24
第三節 兩性共用詞與獨用詞 27
第四節 文本數與詞種數關係的性彆差異 28
第五節 詞長分布的性彆差異 29
一、詞長與平均頻次 29
二、詞長與詞種數 31
第六節 本章小結 32
第三章 微博意見字詞使用的性彆差異 33
第*節 微博意見字頻組間差異 33
一、意見排行榜製定 33
二、高頻字總體使用狀況 35
三、高頻字性彆差異 37
四、其他身份特徵的組間差異 39
第二節 微博意見的詞匯計量特徵 44
一、詞匯密度差異 44
二、詞匯多樣性比較 46
三、詞類分布比較 48
四、詞匯豐富度與微博活躍度 49
第三節 本章小結 50
第二篇 句法篇
第四章 獨詞句使用的性彆差異 53
第*節 性彆語言研究中的獨詞句 53
一、獨詞句的性彆差異研究 53
二、博客語料中的獨詞句 54
第二節 獨詞型獨詞句 54
一、獨詞型獨詞句的範圍 54
二、獨詞句的不同詞匯類彆 56
第三節 獨詞句使用差異的概況 58
一、獨詞句句總數統計 58
二、各詞類獨詞句的使用情況考察 58
第四節 獨詞句使用差異的統計學分析 60
一、數據正態分布驗證 60
二、兩性獨詞句使用差異的顯著性檢驗 61
第五節 各類型獨詞句的性彆差異 61
第六節 “得”字獨詞句性彆差異的個案研究 63
一、“得”字獨詞句的語氣類型 63
二、女性博客“得”字獨詞句 67
三、男性博客“得”字獨詞句 69
四、北京口語中“得/得瞭”獨詞句的性彆差異 71
第七節 本章小結 73
第五章 感嘆句使用的性彆差異 75
第*節 感嘆句使用的總體情況 75
第二節 感嘆句中語氣詞的使用情況 76
一、帶句尾語氣詞的感嘆句 77
二、句尾語氣詞的使用情況對比 78
三、感嘆句中的高頻語氣詞 82
四、語氣詞句總數差值的分析 84
第三節 感嘆詞使用的性彆差異 87
一、感嘆詞使用總體情況對比 88
二、高頻感嘆詞使用情況對比 90
三、兩性使用感嘆詞差異顯著性 92
第四節 女性句尾語助詞“的說”個案研究 92
一、現代漢語方言中句末言說詞 93
二、颱灣地區的現代標準漢語句末言說詞産生的機製 96
三、網絡語言句末言說詞“的說”産生的機製 99
四、網絡語言中“的說”的詞匯化 103
五、結語 106
第五節 本章小結 107
第六章 疑問句使用的性彆差異 108
第*節 疑問句使用的總體情況 108
一、疑問句的考察範圍 108
二、總體情況比較 109
第二節 帶疑問語氣標記的疑問句 110
第三節 帶疑問代詞標記的疑問句 113
一、帶疑問代詞的疑問句使用情況比較 113
二、高頻疑問代詞標記 114
三、句總數次多的疑問代詞標記使用情況比較 116
四、總數zui少的疑問代詞 117
五、疑問代詞的句總數差值比較 118
第四節 男女選擇問句的使用特點 120
一、選擇問句的三種類型 121
二、三種類型選擇問句使用情況的性彆差異 122
第五節 兩性正反問句的使用特點 123
一、兩性正反問句使用的總體情況 123
二、完整形式的正反問句 123
三、正反問句的縮略形式 126
四、三種典型正反問句 128
五、兩性正反問句使用特點小結 129
第六節 兩性疑問句使用情況的整體比較 129
第七節 本章小結 130
第三篇 話語篇
第七章 話題選擇的性彆差異 133
第*節 引言 133
第二節 博客話題的文本分類過程 134
一、選擇博客文本的原因 134
二、文本分類過程 135
第三節 兩性話題選擇的優先序列 140
一、男性話題的優先序列 140
二、女性話題的優先序列 141
三、高位序話題的穩定與變化 142
四、穩定的機製及變化的動因 143
第四節 兩性話題選擇的組間差異 144
一、話題序差比較 144
二、話題量的組間差異顯著性檢驗 145
第五節 本章小結 146
第八章 話語量大小的性彆差異 147
第*節 引言 147
第二節 不同語境下的話語量變化 147
第三節 話題量大小分類統計 149
第四節 話語量離散度 150
一、話語量離散度的組間差異 150
二、話語量離散趨勢 151
第五節 組間差異顯著性檢驗 153
第六節 本章小結 155
參考文獻 156
附錄 165
在綫試讀
第*篇 字詞篇
第*章 漢字使用的性彆差異
第*節 網絡媒體監測語料庫及語料來源
一、語料庫的選擇及依據
國傢語言資源監測與研究中心(網絡媒體分中心)從2005年開始對網絡媒體進行動態監測,已采集瞭包括網絡新聞、網絡論壇、網絡文學、博客、微博等在內的網絡媒體語料,並在此基礎上建立網絡媒體監測語料庫。其中,博客語料主要來源於新浪博客(blog.sina.com.cn)、搜狐博客(blog.sohu.com)、中國博客、博客網(bokee.com)、和訊博客(blog.hexun.com)、博客大巴等網站規模大、網絡訪問量大的知名中文博客網站。本書的研究主要基於網絡媒體監測語料庫中的博客語料和微博語料,博客語料主要用於字、詞匯、句法、話題、話語量的研究,微博語料用於漢字和詞匯章節的個案研究。
選取博客語料主要基於兩個方麵的原因:首先,便於通過作者的元信息篩選齣具有性彆標簽的作者。博客、微博、論壇的作者在社交媒體平颱上注冊時,會提供包括性彆在內的作者身份信息,因此,在語料爬取過程中可對作者身份信息進行元數據標注,進而提取齣有性彆信息的作者。其次,博客文本更便於進行文本分類,有利於開展話題選擇等方麵的性彆語言差異研究。微博文本比較短小,計算機對其進行文本自動分類處理時效度不高,難度較大。而博客文本相對較長,比微博等其他新媒體語料能更有效地進行話題分類,且分類效果更好。
二、博客語料篩選的過程
博客語料庫包括網頁和純文本,我們對語料的基本元數據全部做瞭標注,並采用自動分詞工具做自動分詞和詞性標注等處理。
第*步,下載博客網頁,統一博客數據。首先,構造一個綫程池,池內開啓6個爬行綫程,分彆下載要搜集的六大博客網站的博客網頁。其次,針對每個網站分析、構造視圖—模闆映射規則,將頁麵內容按照映射規則進行解析(見圖1.1)。
圖1.1 博客數據爬行示意圖
不同的博客網站具有不同的頁麵特徵,我們需要統計的博客屬性之一“作者性彆”,在不同的博客頁麵上的錶示方式都不盡相同。所以針對不同的博客網站都必須定義不同的視圖—模闆映射規則。其中視圖就是網站呈現給用戶的頁麵內容,而模闆,則是調查所關心的博客文章及博客作者的屬性集閤。對於不同的博客網站都有不同的視圖—模闆映射關係。依靠這樣的關係,我們就可以把不同博客網站上的所有作者及文章都歸一化為同一存儲格式,從而方便我們的統計。錶1.1和錶1.2給齣我們需要提取的博客作者及博客文章的屬性集閤。
錶1.1 博客作者
錶1.2 博客文章格式
第二步,博客正文詞匯切分。利用中國科學院計算技術研究所研製的漢語詞法分析係統ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)對文本進行自動分詞和詞性標注。博客正文中的句子處理前後情況如錶1.3所示,切分後的句子變成瞭帶詞性標注的詞匯綫性結構。
錶1.3 博客正文詞匯切分
兩性博客語料的篩選步驟如下:
第*步,甄彆性彆信息真實的作者,以便篩選齣真實可靠的兩性博客文本。博客文本在抓取的過程中對作者身份的元數據信息進行瞭采集和標注,可在此基礎上初步篩選齣標注瞭性彆信息的作者。同時,考慮到部分作者登記的性彆並不一定真實,如果把這類文本用作語料分析,將會影響統計結果的可靠性和真實性。為瞭在海量博客語料庫中抽取作者性彆相對真實、可信度高的博文,可以依據博客作者的“博客等級”和“博客積分”高低、“博客訪問量”和“博客關注量”大小,以及是否為“加V博客認證”等標準進行甄彆。博客等級和積分較高、訪問量和關注量較大,同時為加V認證的作者,其博客活躍度較高,作者身份信息較為真實可信。
第二步,經甄選後,篩選瞭符閤條件的作者131989位,其中男性作者54982位,女性作者77007位。博客文本共計2275826篇,404314658字符次。其中,男性文本773777篇,女性文本1502049篇。為有效地進行對比,從女性文本中又隨機抽取與男性文本相近的數量,共計773700篇。
第二節 漢字使用性彆差異的總體情況
一、總字次、字種數和使用頻率比較
楊信彰(2010)認為“語料庫的使用為語言與性彆的研究提供瞭良好的工具”,“在研究手段上,語料庫的使用能幫助我們更好地審視語言與性彆的關係”。統計博客語料庫中兩性的總字次、字種數、使用頻率等相關數據,能客觀、真實地反映漢字使用的性彆差異。
如錶1.4所示,男性博客中的總字種數為20917個,女性為13558個,男性的字種數是女性的1.54倍,明顯高於女性;總字次上兩性差彆不大,女性字種數的平均使用頻次為14206次,高於男性的11135次。從字種數上看,男性掌握和使用的漢字字種數量高於女性,男性的漢字豐富性高於女性。從平均頻次上看,女性的漢字字種數密度高於男性。
錶1.4 男女博客中漢字總體使用情況
二、漢字覆蓋率比較
本書有關覆蓋率的統計方法依據國傢語言資源監測與研究中心編輯的《中國語言生活狀況報告》(2008)中的定義,指被調查語料內指定調查對象占所有調查對象總量的百分比,計算方法與纍加頻率相同,即每一調查對象的頻次同其前調查對象的頻次的纍加和,與所有語料中調查對象總次數的比值。漢字的覆蓋率是衡量漢字在所屬語料庫中是否常用的標準之一。
錶1.5中以覆蓋率10%為增長的基準,在同一覆蓋率的標準下,統計對比瞭男女博客中所使用的漢字字種數以及在總字種數中所占的比例,可以得齣的結論是:要達到相同的覆蓋率,男性比女性要使用更多的字種數,而女性所使用的字種數在總字種數中所占的比例則高於男性。這進一步印
內容介紹
基於網絡媒體監測語料庫的性彆語言差異研究 下載 mobi epub pdf txt 電子書