肖桐
博士,東北大學教授、博士生導師,東北大學計算機學院人工智能係係主任,東北大學自然語言處理實驗室主任,小牛翻譯(NiuTrans)聯閤創始人。於東北大學計算機專業獲得博士學位。2006—2009年赴日本富士施樂、微軟亞洲研究院訪問學習,並於2013—2014年赴英國劍橋大學開展博士後研究。主要研究領域包括自然語言處理、機器學習等。在國內外相關領域高水平會議及期刊上發錶學術論文70餘篇。作為項目技術負責人,成功研發瞭NiuTrans、NiuTensor等開源係統,在WMT、CCMT/CWMT、NTCIR等國內外評測中多次獲得冠軍。2014年獲得中國中文信息學會首屆優秀博士論文提名奬,2016年獲得中國中文信息學會“錢偉長中文信息處理科學技術奬”一等奬。任ACL、TACL等國際著名會議及期刊的領域主席和常駐審稿人。
硃靖波
博士,東北大學教授、博士生導師,小牛翻譯創始人。於東北大學計算機專業獲得博士學位,曾在香港城市大學(2004—2005年)和美國南加州大學ISI(2006—2007年)開展訪問研究。從1992年開始,專注於語言分析和機器翻譯技術研究工作,在國內外高水平會議及期刊上發錶學術論文200餘篇,2005年入選國傢教育部新世紀優秀人纔計劃,2016年獲得中國中文信息學會“錢偉長中文信息處理科學技術奬”一等奬。
第1部分 機器翻譯基礎
1 機器翻譯簡介2
1.1 機器翻譯的概念2
1.2 機器翻譯簡史 4
1.2.1 人工翻譯4
1.2.2 機器翻譯的萌芽 5
1.2.3 機器翻譯的受挫 6
1.2.4 機器翻譯的快速成長 7
1.2.5 機器翻譯的爆發8
1.3 機器翻譯現狀及挑戰9
1.4 基於規則的機器翻譯方法12
1.4.1 規則的定義 12
1.4.2 轉換法13
1.4.3 基於中間語言的方法 15
1.4.4 基於規則的方法的優缺點16
1.5 數據驅動的機器翻譯方法16
1.5.1 基於實例的機器翻譯16
1.5.2 統計機器翻譯17
1.5.3 神經機器翻譯18
1.5.4 對比分析19
1.6 推薦學習資源20
1.6.1 經典書籍20
1.6.2 相關學術會議21
2 統計語言建模基礎24
2.1 概率論基礎24
2.1.1 隨機變量和概率24
2.1.2 聯閤概率、條件概率和邊緣概率26
2.1.3 鏈式法則27
2.1.4 貝葉斯法則28
2.1.5 KL 距離和熵 29
2.2 擲骰子遊戲 31
2.3 n-gram 語言模型 34
2.3.1 建模35
2.3.2 參數估計和平滑算法 37
2.3.3 語言模型的評價42
2.4 預測與搜索 43
2.4.1 搜索問題的建模44
2.4.2 經典搜索47
2.4.3 局部搜索50
2.5 小結及拓展閱讀 52
3 詞法分析和語法分析基礎54
3.1 問題概述54
3.2 中文分詞 56
3.2.1 基於詞典的分詞方法 57
3.2.2 基於統計的分詞方法 58
3.3 命名實體識彆60
3.3.1 序列標注任務 60
3.3.2 基於特徵的統計學習62
3.3.3 基於概率圖模型的方法63
3.3.4 基於分類器的方法69
3.4 句法分析 71
3.4.1 句法樹71
3.4.2 上下文無關文法73
3.4.3 規則和推導的概率77
3.5 小結及拓展閱讀 79
4 翻譯質量評價 81
4.1 譯文質量評價麵臨的挑戰81
4.2 人工評價84
4.2.1 評價策略84
4.2.2 打分標準85
4.3 有參考答案的自動評價 86
4.3.1 基於詞串比對的評價方法86
4.3.2 基於詞對齊的評價方法89
4.3.3 基於檢測點的評價方法93
4.3.4 多策略融閤的評價方法 94
4.3.5 譯文多樣性94
4.3.6 相關性與顯著性98
4.4 無參考答案的自動評價101
4.4.1 質量評估任務101
4.4.2 構建質量評估模型106
4.4.3 質量評估的應用場景107
4.5 小結及拓展閱讀108
第2部分 統計機器翻譯
5 基於詞的機器翻譯建模111
5.1 詞在翻譯中的作用 111
5.2 一個簡單實例 113
5.2.1 翻譯的流程113
5.2.2 統計機器翻譯的基本框架115
5.2.3 單詞級翻譯模型116
5.2.4 句子級翻譯模型119
5.2.5 解碼 122
5.3 噪聲信道模型125
5.4 統計機器翻譯的3個基本問題 127
5.4.1 詞對齊128
5.4.2 基於詞對齊的翻譯模型129
5.4.3 基於詞對齊的翻譯實例130
5.5 IBM模型1 131
5.5.1 IBM模型1的建模131
5.5.2 解碼及計算優化133
5.5.3 訓練134
5.6 小結及拓展閱讀140
6 基於扭麯度和繁衍率的模型 142
6.1 基於扭麯度的模型142
6.1.1 什麼是扭麯度142
6.1.2 IBM模型2 144
6.1.3 隱馬爾可夫模型145
6.2 基於繁衍率的模型146
6.2.1 什麼是繁衍率146
6.2.2 IBM模型3 149
6.2.3 IBM模型4 151
6.2.4 IBM模型5 152
6.3 解碼和訓練154
6.4 問題分析 154
6.4.1 詞對齊及對稱化154
6.4.2 “缺陷”問題 155
6.4.3 句子長度156
6.4.4 其他問題156
6.5 小結及拓展閱讀 157
7 基於短語的模型158
7.1 翻譯中的短語信息158
7.1.1 詞的翻譯帶來的問題158
7.1.2 更大粒度的翻譯單元159
7.1.3 機器翻譯中的短語161
7.2 數學建模164
7.2.1 基於翻譯推導的建模164
7.2.2 對數綫性模型166
7.2.3 判彆模型中的特徵167
7.2.4 搭建模型的基本流程167
7.3 短語抽取168
7.3.1 與詞對齊一緻的短語168
7.3.2 獲取詞對齊169
7.3.3 度量雙語短語質量170
7.4 翻譯調序建模172
7.4.1 基於距離的調序172
7.4.2 基於方嚮的調序173
7.4.3 基於分類的調序174
7.5 翻譯特徵175
7.6 最小錯誤率訓練175
7.7 棧解碼 179
7.7.1 翻譯候選匹配180
7.7.2 翻譯假設擴展181
7.7.3 剪枝181
7.7.4 解碼中的棧結構183
7.8 小結及拓展閱讀184
8 基於句法的模型186
8.1 翻譯中句法信息的使用186
8.2 基於層次短語的模型188
8.2.1 同步上下文無關文法190
8.2.2 層次短語規則抽取194
8.2.3 翻譯特徵196
8.2.4 CKY解碼197
8.2.5 立方剪枝200
8.3 基於語言學句法的模型 203
8.3.1 基於句法的翻譯模型分類205
8.3.2 基於樹結構的文法 206
8.3.3 樹到串翻譯規則抽取212
8.3.4 樹到樹翻譯規則抽取220
8.3.5 句法翻譯模型的特徵223
8.3.6 基於超圖的推導空間錶示224
8.3.7 基於樹的解碼vs基於串的解碼227
8.4 小結及拓展閱讀231
第3部分 神經機器翻譯
9 神經網絡和神經語言建模234
9.1 深度學習與神經網絡234
9.1.1 發展簡史235
9.1.2 為什麼需要深度學習237
9.2 神經網絡基礎239
9.2.1 綫性代數基礎239
9.2.2 神經元和感知機244
9.2.3 多層神經網絡248
9.2.4 函數擬閤能力252
9.3 神經網絡的張量實現256
9.3.1 張量及其計算256
9.3.2 張量的物理存儲形式259
9.3.3 張量的實現手段259
9.3.4 前嚮傳播與計算圖260
9.4 神經網絡的參數訓練262
9.4.1 損失函數262
9.4.2 基於梯度的參數優化264
9.4.3 參數更新的並行化策略272
9.4.4 梯度消失、梯度爆炸和穩定性訓練273
9.4.5 過擬閤275
9.4.6 反嚮傳播 276
9.5 神經語言模型281
9.5.1 基於前饋神經網絡的語言模型281
9.5.2 對於長序列的建模284
9.5.3 單詞錶示模型286
9.5.4 句子錶示模型288
9.6 小結及拓展閱讀290
10 基於循環神經網絡的模型292
10.1 神經機器翻譯的發展簡史292
10.1.1 神經機器翻譯的起源294
10.1.2 神經機器翻譯的品質296
10.1.3 神經機器翻譯的優勢298
10.2 編碼器-解碼器框架300
10.2.1 框架結構300
10.2.2 錶示學習301
10.2.3 簡單的運行實例302
10.2.4 機器翻譯範式的對比303
10.3 基於循環神經網絡的翻譯建模304
10.3.1 建模 305
10.3.2 長短時記憶網絡308
10.3.3 門控循環單元310
10.3.4 雙嚮模型311
10.3.5 多層神經網絡312
10.4 注意力機製 313
10.4.1 翻譯中的注意力機製 314
10.4.2 上下文嚮量的計算315
10.4.3 注意力機製的解讀 318
10.4.4 實例:GNMT320
10.5 訓練及推斷321
10.5.1 訓練 321
10.5.2 推斷327
10.6 小結及拓展閱讀331
11 基於捲積神經網絡的模型332
11.1 捲積神經網絡332
11.1.1 捲積核與捲積操作 333
11.1.2 步長與填充335
11.1.3 池化336
11.1.4 麵嚮序列的捲積操作 337
11.2 基於捲積神經網絡的翻譯建模339
11.2.1 位置編碼 341
11.2.2 門控捲積神經網絡341
11.2.3 殘差網絡343
11.2.4 多步注意力機製 344
11.2.5 訓練與推斷346
11.3 局部模型的改進347
11.3.1 深度可分離捲積347
11.3.2 輕量捲積和動態捲積349
11.4 小結及拓展閱讀351
12 基於自注意力的模型352
12.1 自注意力機製 352
12.2 Transformer 模型354
12.2.1 Transformer 的優勢354
12.2.2 總體結構355
12.3 位置編碼357
12.4 基於點乘的多頭注意力機製359
12.4.1 點乘注意力機製359
12.4.2 多頭注意力機製362
12.4.3 掩碼操作363
12.5 殘差網絡和層標準化 363
12.6 前饋全連接網絡子層365
12.7 訓練366
12.8 推斷 368
12.9 小結及拓展閱讀369
第4部分 機器翻譯前沿
13 神經機器翻譯模型訓練371
13.1 開放詞錶371
13.1.1 大詞錶和未登錄詞問題372
13.1.2 子詞 372
13.1.3 雙字節編碼373
13.1.4 其他方法 375
13.2 正則化376
13.2.1 L1/L2 正則化377
13.2.2 標簽平滑378
13.2.3 Dropout 379
13.3 對抗樣本訓練 381
13.3.1 對抗樣本與對抗攻擊382
13.3.2 基於黑盒攻擊的方法383
13.3.3 基於白盒攻擊的方法384
13.4 學習策略385
13.4.1 極大似然估計的問題385
13.4.2 非 Teacher-forcing 方法386
13.4.3 強化學習方法388
13.5 知識蒸餾392
13.5.1 什麼是知識蒸餾392
13.5.2 知識蒸餾的基本方法 393
13.5.3 機器翻譯中的知識蒸餾 395
13.6 基於樣本價值的學習396
13.6.1 數據選擇 396
13.6.2 課程學習399
13.6.3 持續學習401
13.7 小結及拓展閱讀401
14 神經機器翻譯模型推斷 403
14.1 麵臨的挑戰403
14.2 基本問題405
14.2.1 推斷方嚮405
14.2.2 譯文長度控製406
14.2.3 搜索終止條件408
14.2.4 譯文多樣性408
14.2.5 搜索錯誤409
14.3 輕量模型410
14.3.1 輸齣層的詞匯選擇411
14.3.2 消除冗餘計算411
14.3.3 輕量解碼器及小模型413
14.3.4 批量推斷414
14.3.5 低精度運算414
14.4 非自迴歸翻譯 416
14.4.1 自迴歸vs非自迴歸416
14.4.2 非自迴歸翻譯模型的結構417
14.4.3 更好的訓練目標420
14.4.4 引入自迴歸模塊421
14.4.5 基於迭代精化的非自迴歸翻譯模型423
14.5 多模型集成424
14.5.1 假設選擇424
14.5.2 局部預測融閤426
14.5.3 譯文重組427
14.6 小結與拓展閱讀428
15 神經機器翻譯模型結構優化430
15.1 注意力機製的改進 430
15.1.1 局部信息建模430
15.1.2 多分支結構437
15.1.3 引入循環機製439
15.1.4 高效的自注意力模型440
15.2 神經網絡連接優化及深層模型441
15.2.1 Post-Norm vs Pre-Norm 442
15.2.2 高效信息傳遞444
15.2.3 麵嚮深層模型的參數初始化策略448
15.2.4 深層模型的訓練加速451
15.2.5 深層模型的健壯性訓練454
15.3 基於句法的神經機器翻譯模型456
15.3.1 在編碼器中使用句法信息456
15.3.2 在解碼器中使用句法信息461
15.4 基於結構搜索的翻譯模型優化463
15.4.1 網絡結構搜索464
15.4.2 網絡結構搜索的基本方法465
15.4.3 機器翻譯任務下的網絡結構搜索468
15.5 小結及拓展閱讀470
16 低資源神經機器翻譯471
16.1 數據的有效使用471
16.1.1 數據增強472
16.1.2 基於語言模型的方法477
16.2 雙嚮翻譯模型 482
16.2.1 雙嚮訓練482
16.2.2 對偶學習483
16.3 多語言翻譯模型486
16.3.1 基於樞軸語言的方法486
16.3.2 基於知識蒸餾的方法487
16.3.3 基於遷移學習的方法488
16.4 無監督機器翻譯491
16.4.1 無監督詞典歸納491
16.4.2 無監督統計機器翻譯494
16.4.3 無監督神經機器翻譯495
16.5 領域適應499
16.5.1 基於數據的方法500
16.5.2 基於模型的方法501
16.6 小結及拓展閱讀 503
17 多模態、多層次機器翻譯 504
17.1 機器翻譯需要更多的上下文504
17.2 語音翻譯 505
17.2.1 音頻處理505
17.2.2 級聯語音翻譯507
17.2.3 端到端語音翻譯508
17.3 圖像翻譯513
17.3.1 基於圖像增強的文本翻譯514
17.3.2 圖像到文本的翻譯516
17.3.3 圖像、文本到圖像的翻譯 519
17.4 篇章級翻譯519
17.4.1 篇章級翻譯的挑戰519
17.4.2 篇章級翻譯的評價520
17.4.3 篇章級翻譯的建模 521
17.4.4 在推斷階段結閤篇章上下文525
17.5 小結及拓展閱讀 526
18 機器翻譯應用技術528
18.1 機器翻譯的應用並不簡單528
18.2 增量式模型優化 529
18.3 交互式機器翻譯530
18.4 翻譯結果的可乾預性532
18.5 小設備機器翻譯 533
18.6 機器翻譯係統的部署534
18.7 機器翻譯的應用場景 535
隨筆 538
後記 543
附錄 A 545
A.1 統計機器翻譯開源係統 545
A.2 神經機器翻譯開源係統 546
附錄 B 548
B.1 公開評測任務548
B.2 基準數據集 550
B.3 平行語料 551
附錄 C 552
C.1 IBM 模型 2 的訓練方法 552
C.2 IBM 模型 3 的訓練方法553
C.3 IBM 模型 4 的訓練方法555
C.4 IBM 模型 5 的訓練方法 556
參考文獻 559
索引 618
· · · · · · (
收起)
利用機器翻譯技術實現不同語言之間的自由交流始終是最令人期待的計算機應用之一。本書全麵迴顧瞭近30 年來機器翻譯的技術發展曆程,遵循機器翻譯技術的發展脈絡,對基於統計和基於端到端深度學習的機器翻譯關鍵技術及原理進行瞭深入解析,力求做到簡潔明瞭、全麵透徹、圖文結閤。此外,本書著重介紹瞭近年來機器翻譯領域的科研熱點,旨在幫助讀者全麵瞭解機器翻譯的前沿研究進展和關鍵技術。
《機器翻譯:基礎與模型》可供計算機相關專業高年級本科生及研究生學習使用,也可作為自然語言處理,特彆是機器翻譯相關研究人員的案邊手冊。
機器翻譯:基礎與模型 下載 mobi epub pdf txt 電子書