魏溪含
愛丁堡大學人工智能碩士,阿裏巴巴達摩院算法專傢,在計算機視覺、大數據領域有8年以上的算法架構和研發經驗。
在大數據領域,曾帶領團隊對阿裏巴巴個性化推薦係統進行升級;計算機視覺領域,主導並攻剋瞭光伏EL全自動瑕疵識彆的世界難題,並在行為識彆領域帶領團隊參賽打破世界紀錄等。
塗銘
阿裏巴巴數據架構師,對大數據、自然語言處理、圖像識彆、Python、Java相關技術有深入的研究,積纍瞭豐富的實踐經驗。在工業領域曾參與瞭燃煤優化、設備故障診斷項目,正泰光伏電池片和組件EL圖像檢測項目;在自然語言處理方麵,擔任導購機器人項目的架構師,主導開發機器人的語義理解、短文本相似度匹配、上下文理解,以及通過自然語言檢索産品庫,在項目中構建瞭NoSQL+文本檢索等大數據架構,也同時負責問答對的整理和商品屬性的提取,帶領NLP團隊構建語義解析層。
張修鵬
畢業於中南大學,阿裏巴巴技術發展專傢,長期從事雲計算、大數據、人工智能與物聯網技術的商業化應用,在阿裏巴巴首次將圖像識彆技術引入工業,並推動圖像識彆産品化、平颱化,擅於整閤前沿技術解決産業問題,主導多個大數據和AI為核心的數字化轉型項目成功實施,對技術和商業結閤有著深刻的理解。
前言
第1章 機器視覺在行業中的應用1
1.1 機器視覺的發展背景1
1.1.1 人工智能1
1.1.2 機器視覺2
1.2 機器視覺的主要應用場景3
1.2.1 人臉識彆3
1.2.2 視頻監控分析4
1.2.3 工業瑕疵檢測5
1.2.4 圖片識彆分析6
1.2.5 自動駕駛/駕駛輔助7
1.2.6 三維圖像視覺8
1.2.7 醫療影像診斷8
1.2.8 文字識彆9
1.2.9 圖像/視頻的生成及設計9
1.3 本章小結10
第2章 圖像識彆前置技術11
2.1 深度學習框架11
2.1.1 Theano11
2.1.2 Tensorflow12
2.1.3 MXNet13
2.1.4 Keras13
2.1.5 PyTorch14
2.1.6 Caffe14
2.2 搭建圖像識彆開發環境15
2.2.1 Anaconda15
2.2.2 conda18
2.2.3 Pytorch的下載與安裝19
2.3 Numpy使用詳解20
2.3.1 創建數組20
2.3.2 創建Numpy數組22
2.3.3 獲取Numpy屬性24
2.3.4 Numpy數組索引25
2.3.5 切片25
2.3.6 Numpy中的矩陣運算26
2.3.7 數據類型轉換27
2.3.8 Numpy的統計計算方法28
2.3.9 Numpy中的arg運算29
2.3.10 FancyIndexing29
2.3.11 Numpy數組比較30
2.4 本章小結31
第3章 圖像分類之KNN算法32
3.1 KNN的理論基礎與實現32
3.1.1 理論知識32
3.1.2 KNN的算法實現33
3.2 圖像分類識彆預備知識35
3.2.1 圖像分類35
3.2.2 圖像預處理36
3.3 KNN實戰36
3.3.1 KNN實現MNIST數據分類36
3.3.2 KNN實現Cifar10數據分類41
3.4 模型參數調優44
3.5 本章小結48
第4章 機器學習基礎49
4.1 綫性迴歸模型49
4.1.1 一元綫性迴歸50
4.1.2 多元綫性迴歸56
4.2 邏輯迴歸模型57
4.2.1 Sigmoid函數58
4.2.2 梯度下降法59
4.2.3 學習率的分析61
4.2.4 邏輯迴歸的損失函數63
4.2.5 Python實現邏輯迴歸66
4.3 本章小結68
第5章 神經網絡基礎69
5.1 神經網絡69
5.1.1 神經元70
5.1.2 激活函數72
5.1.3 前嚮傳播76
5.2 輸齣層80
5.2.1 Softmax80
5.2.2 one-hotencoding82
5.2.3 輸齣層的神經元個數83
5.2.4 MNIST數據集的前嚮傳播83
5.3 批處理85
5.4 廣播原則87
5.5 損失函數88
5.5.1 均方誤差88
5.5.2 交叉熵誤差89
5.5.3 Mini-batch90
5.6 最優化91
5.6.1 隨機初始化91
5.6.2 跟隨梯度(數值微分)92
5.7 基於數值微分的反嚮傳播98
5.8 基於測試集的評價101
5.9 本章小結104
第6章 誤差反嚮傳播105
6.1 激活函數層的實現105
6.1.1 ReLU反嚮傳播實現106
6.1.2 Sigmoid反嚮傳播實現106
6.2 Affine層的實現107
6.3 Softmaxwithloss層的實現108
6.4 基於數值微分和誤差反嚮傳播的比較109
6.5 通過反嚮傳播實現MNIST識彆111
6.6 正則化懲罰114
6.7 本章小結115
第7章 PyTorch實現神經網絡圖像分類116
7.1 PyTorch的使用116
7.1.1 Tensor116
7.1.2 Variable117
7.1.3 激活函數118
7.1.4 損失函數120
7.2 PyTorch實戰122
7.2.1 PyTorch實戰之MNIST分類122
7.2.2 PyTorch實戰之Cifar10分類125
7.3 本章小結128
第8章 捲積神經網絡129
8.1 捲積神經網絡基礎129
8.1.1 全連接層129
8.1.2 捲積層130
8.1.3 池化層134
8.1.4 批規範化層135
8.2 常見捲積神經網絡結構135
8.2.1 AlexNet136
8.2.2 VGGNet138
8.2.3 GoogLeNet140
8.2.4 ResNet142
8.2.5 其他網絡結構144
8.3 VGG16實現Cifar10分類145
8.3.1 訓練146
8.3.2 預測及評估149
8.4 本章小結152
8.5 參考文獻152
第9章 目標檢測153
9.1 定位+分類153
9.2 目標檢測155
9.2.1 R-CNN156
9.2.2 Fast R-CNN160
9.2.3 Faster R-CNN162
9.2.4 YOLO165
9.2.5 SSD166
9.3 SSD實現VOC目標檢測167
9.3.1 PASCAL VOC數據集167
9.3.2 數據準備170
9.3.3 構建模型175
9.3.4 定義Loss178
9.3.5 SSD訓練細節181
9.3.6 訓練186
9.3.7 測試189
9.4 本章小結190
9.5 參考文獻191
第10章 分割192
10.1 語義分割193
10.1.1 FCN193
10.1.2 UNet實現裂紋分割196
10.1.3 SegNet209
10.1.4 PSPNet210
10.2 實例分割211
10.2.1 層疊式212
10.2.2 扁平式212
10.3 本章小結213
10.4 參考文獻214
第11章 産生式模型215
11.1 自編碼器215
11.2 對抗生成網絡215
11.3 DCGAN及實戰217
11.3.1 數據集218
11.3.2 網絡設置220
11.3.3 構建産生網絡221
11.3.4 構建判彆網絡223
11.3.5 定義損失函數224
11.3.6 訓練過程224
11.3.7 測試227
11.4 其他GAN230
11.5 本章小結235
11.6 參考文獻235
第12章 神經網絡可視化236
12.1 捲積核236
12.2 特徵層237
12.2.1 直接觀測237
12.2.2 通過重構觀測239
12.2.3 末端特徵激活情況243
12.2.4 特徵層的作用244
12.3 圖片風格化245
12.3.1 理論介紹245
12.3.2 代碼實現247
12.4 本章小結255
12.5 參考文獻255
第13章 圖像識彆算法的部署模式257
13.1 圖像算法部署模式介紹257
13.2 實際應用場景和部署模式的匹配262
13.3 案例介紹264
13.4 本章小結265
· · · · · · (
收起)
這是一部從技術原理、算法和工程實踐3個維度係統講解圖像識彆的著作,由阿裏巴巴達摩院算法專傢、阿裏巴巴技術發展專傢、阿裏巴巴數據架構師聯閤撰寫。
在知識點的選擇上,本書廣度和深度兼顧,既能讓完全沒有基礎的讀者迅速入門,又能讓有基礎的讀者深入掌握圖像識彆的核心技術;在寫作方式上,本書避開瞭復雜的數學公式及其推導,從問題的前因後果 、創造者的思考過程,利用簡單的數學計算來做模型分析和講解,通俗易懂。更重要的是,本書不僅僅是聚焦於技術,而是將重點放在瞭如何用技術解決實際的業務問題。
全書一共13章:
第1-2章主要介紹瞭圖像識彆的應用場景、工具和工作環境的搭建;
第3-6章詳細講解瞭圖像分類算法、機器學習、神經網絡、誤差反嚮傳播等圖像識彆的基礎技術及其原理;
第7章講解瞭如何利用PyTorch來實現神經網絡的圖像分類,專注於實操,是從基礎嚮高階的過渡;
第8-12章深入講解瞭圖像識彆的核心技術及其原理,包括捲積神經網絡、目標檢測、分割、産生式模型、神經網絡可視化等主題;
第13章從工程實踐的角度講解瞭圖像識彆算法的部署模式。
購買本書的讀者請在http://www.hzcourse.com/web/refbook/detail/8376/226
下載源代碼