商品参数
基于网络媒体监测语料库的性别语言差异研究 |
| 曾用价 | 72.00 |
出版社 | 科学出版社 |
版次 | 1 |
出版时间 | 2017年11月 |
开本 | 16 |
作者 | 王宇波 |
装帧 | 平装 |
页数 | 204 |
字数 | 200 |
ISBN编码 | 9787030545947 |
目录
目录
当一个语言学研究的排头兵
序言
第*篇 字词篇
第*章 汉字使用的性别差异 3
第*节 网络媒体监测语料库及语料来源 3
一、语料库的选择及依据 3
二、博客语料筛选的过程 4
第二节 汉字使用性别差异的总体情况 6
一、总字次、字种数和使用频率比较 6
二、汉字覆盖率比较 6
第三节 汉字字频的性别差异 8
一、高频字比较 8
二、低频字比较 9
三、高频字与《现代汉语常用字表》比较 10
四、高频字构词能力的性别差异 11
第四节 男女两性共用字与独用字 13
第五节 本章小结 16
第二章 词汇使用的性别差异 17
第*节 词汇使用性别差异的总体情况 17
一、总词次、词种数和词汇多样性的性别差异 17
二、词汇覆盖率的性别差异 18
第二节 词汇使用频率的性别差异 19
一、不同频次范围的词种数 19
二、高频词比较 21
三、高频词与字种数关系 23
四、高频词词性分布的性别差异 24
第三节 两性共用词与独用词 27
第四节 文本数与词种数关系的性别差异 28
第五节 词长分布的性别差异 29
一、词长与平均频次 29
二、词长与词种数 31
第六节 本章小结 32
第三章 微博意见字词使用的性别差异 33
第*节 微博意见字频组间差异 33
一、意见排行榜制定 33
二、高频字总体使用状况 35
三、高频字性别差异 37
四、其他身份特征的组间差异 39
第二节 微博意见的词汇计量特征 44
一、词汇密度差异 44
二、词汇多样性比较 46
三、词类分布比较 48
四、词汇丰富度与微博活跃度 49
第三节 本章小结 50
第二篇 句法篇
第四章 独词句使用的性别差异 53
第*节 性别语言研究中的独词句 53
一、独词句的性别差异研究 53
二、博客语料中的独词句 54
第二节 独词型独词句 54
一、独词型独词句的范围 54
二、独词句的不同词汇类别 56
第三节 独词句使用差异的概况 58
一、独词句句总数统计 58
二、各词类独词句的使用情况考察 58
第四节 独词句使用差异的统计学分析 60
一、数据正态分布验证 60
二、两性独词句使用差异的显著性检验 61
第五节 各类型独词句的性别差异 61
第六节 “得”字独词句性别差异的个案研究 63
一、“得”字独词句的语气类型 63
二、女性博客“得”字独词句 67
三、男性博客“得”字独词句 69
四、北京口语中“得/得了”独词句的性别差异 71
第七节 本章小结 73
第五章 感叹句使用的性别差异 75
第*节 感叹句使用的总体情况 75
第二节 感叹句中语气词的使用情况 76
一、带句尾语气词的感叹句 77
二、句尾语气词的使用情况对比 78
三、感叹句中的高频语气词 82
四、语气词句总数差值的分析 84
第三节 感叹词使用的性别差异 87
一、感叹词使用总体情况对比 88
二、高频感叹词使用情况对比 90
三、两性使用感叹词差异显著性 92
第四节 女性句尾语助词“的说”个案研究 92
一、现代汉语方言中句末言说词 93
二、台湾地区的现代标准汉语句末言说词产生的机制 96
三、网络语言句末言说词“的说”产生的机制 99
四、网络语言中“的说”的词汇化 103
五、结语 106
第五节 本章小结 107
第六章 疑问句使用的性别差异 108
第*节 疑问句使用的总体情况 108
一、疑问句的考察范围 108
二、总体情况比较 109
第二节 带疑问语气标记的疑问句 110
第三节 带疑问代词标记的疑问句 113
一、带疑问代词的疑问句使用情况比较 113
二、高频疑问代词标记 114
三、句总数次多的疑问代词标记使用情况比较 116
四、总数zui少的疑问代词 117
五、疑问代词的句总数差值比较 118
第四节 男女选择问句的使用特点 120
一、选择问句的三种类型 121
二、三种类型选择问句使用情况的性别差异 122
第五节 两性正反问句的使用特点 123
一、两性正反问句使用的总体情况 123
二、完整形式的正反问句 123
三、正反问句的缩略形式 126
四、三种典型正反问句 128
五、两性正反问句使用特点小结 129
第六节 两性疑问句使用情况的整体比较 129
第七节 本章小结 130
第三篇 话语篇
第七章 话题选择的性别差异 133
第*节 引言 133
第二节 博客话题的文本分类过程 134
一、选择博客文本的原因 134
二、文本分类过程 135
第三节 两性话题选择的优先序列 140
一、男性话题的优先序列 140
二、女性话题的优先序列 141
三、高位序话题的稳定与变化 142
四、稳定的机制及变化的动因 143
第四节 两性话题选择的组间差异 144
一、话题序差比较 144
二、话题量的组间差异显著性检验 145
第五节 本章小结 146
第八章 话语量大小的性别差异 147
第*节 引言 147
第二节 不同语境下的话语量变化 147
第三节 话题量大小分类统计 149
第四节 话语量离散度 150
一、话语量离散度的组间差异 150
二、话语量离散趋势 151
第五节 组间差异显著性检验 153
第六节 本章小结 155
参考文献 156
附录 165
在线试读
第*篇 字词篇
第*章 汉字使用的性别差异
第*节 网络媒体监测语料库及语料来源
一、语料库的选择及依据
国家语言资源监测与研究中心(网络媒体分中心)从2005年开始对网络媒体进行动态监测,已采集了包括网络新闻、网络论坛、网络文学、博客、微博等在内的网络媒体语料,并在此基础上建立网络媒体监测语料库。其中,博客语料主要来源于新浪博客(blog.sina.com.cn)、搜狐博客(blog.sohu.com)、中国博客、博客网(bokee.com)、和讯博客(blog.hexun.com)、博客大巴等网站规模大、网络访问量大的知名中文博客网站。本书的研究主要基于网络媒体监测语料库中的博客语料和微博语料,博客语料主要用于字、词汇、句法、话题、话语量的研究,微博语料用于汉字和词汇章节的个案研究。
选取博客语料主要基于两个方面的原因:首先,便于通过作者的元信息筛选出具有性别标签的作者。博客、微博、论坛的作者在社交媒体平台上注册时,会提供包括性别在内的作者身份信息,因此,在语料爬取过程中可对作者身份信息进行元数据标注,进而提取出有性别信息的作者。其次,博客文本更便于进行文本分类,有利于开展话题选择等方面的性别语言差异研究。微博文本比较短小,计算机对其进行文本自动分类处理时效度不高,难度较大。而博客文本相对较长,比微博等其他新媒体语料能更有效地进行话题分类,且分类效果更好。
二、博客语料筛选的过程
博客语料库包括网页和纯文本,我们对语料的基本元数据全部做了标注,并采用自动分词工具做自动分词和词性标注等处理。
第*步,下载博客网页,统一博客数据。首先,构造一个线程池,池内开启6个爬行线程,分别下载要搜集的六大博客网站的博客网页。其次,针对每个网站分析、构造视图—模板映射规则,将页面内容按照映射规则进行解析(见图1.1)。
图1.1 博客数据爬行示意图
不同的博客网站具有不同的页面特征,我们需要统计的博客属性之一“作者性别”,在不同的博客页面上的表示方式都不尽相同。所以针对不同的博客网站都必须定义不同的视图—模板映射规则。其中视图就是网站呈现给用户的页面内容,而模板,则是调查所关心的博客文章及博客作者的属性集合。对于不同的博客网站都有不同的视图—模板映射关系。依靠这样的关系,我们就可以把不同博客网站上的所有作者及文章都归一化为同一存储格式,从而方便我们的统计。表1.1和表1.2给出我们需要提取的博客作者及博客文章的属性集合。
表1.1 博客作者
表1.2 博客文章格式
第二步,博客正文词汇切分。利用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)对文本进行自动分词和词性标注。博客正文中的句子处理前后情况如表1.3所示,切分后的句子变成了带词性标注的词汇线性结构。
表1.3 博客正文词汇切分
两性博客语料的筛选步骤如下:
第*步,甄别性别信息真实的作者,以便筛选出真实可靠的两性博客文本。博客文本在抓取的过程中对作者身份的元数据信息进行了采集和标注,可在此基础上初步筛选出标注了性别信息的作者。同时,考虑到部分作者登记的性别并不一定真实,如果把这类文本用作语料分析,将会影响统计结果的可靠性和真实性。为了在海量博客语料库中抽取作者性别相对真实、可信度高的博文,可以依据博客作者的“博客等级”和“博客积分”高低、“博客访问量”和“博客关注量”大小,以及是否为“加V博客认证”等标准进行甄别。博客等级和积分较高、访问量和关注量较大,同时为加V认证的作者,其博客活跃度较高,作者身份信息较为真实可信。
第二步,经甄选后,筛选了符合条件的作者131989位,其中男性作者54982位,女性作者77007位。博客文本共计2275826篇,404314658字符次。其中,男性文本773777篇,女性文本1502049篇。为有效地进行对比,从女性文本中又随机抽取与男性文本相近的数量,共计773700篇。
第二节 汉字使用性别差异的总体情况
一、总字次、字种数和使用频率比较
杨信彰(2010)认为“语料库的使用为语言与性别的研究提供了良好的工具”,“在研究手段上,语料库的使用能帮助我们更好地审视语言与性别的关系”。统计博客语料库中两性的总字次、字种数、使用频率等相关数据,能客观、真实地反映汉字使用的性别差异。
如表1.4所示,男性博客中的总字种数为20917个,女性为13558个,男性的字种数是女性的1.54倍,明显高于女性;总字次上两性差别不大,女性字种数的平均使用频次为14206次,高于男性的11135次。从字种数上看,男性掌握和使用的汉字字种数量高于女性,男性的汉字丰富性高于女性。从平均频次上看,女性的汉字字种数密度高于男性。
表1.4 男女博客中汉字总体使用情况
二、汉字覆盖率比较
本书有关覆盖率的统计方法依据国家语言资源监测与研究中心编辑的《中国语言生活状况报告》(2008)中的定义,指被调查语料内指定调查对象占所有调查对象总量的百分比,计算方法与累加频率相同,即每一调查对象的频次同其前调查对象的频次的累加和,与所有语料中调查对象总次数的比值。汉字的覆盖率是衡量汉字在所属语料库中是否常用的标准之一。
表1.5中以覆盖率10%为增长的基准,在同一覆盖率的标准下,统计对比了男女博客中所使用的汉字字种数以及在总字种数中所占的比例,可以得出的结论是:要达到相同的覆盖率,男性比女性要使用更多的字种数,而女性所使用的字种数在总字种数中所占的比例则高于男性。这进一步印
内容介绍
基于网络媒体监测语料库的性别语言差异研究 电子书 下载 mobi epub pdf txt