weka係統的主要開發者將豐富的研發、商業應用和教學實踐的經驗和技術融會貫通。
廣泛覆蓋在數據挖掘實踐中采用的算法和機器學習技術,著眼於解決實際問題
避免過分要求理論基礎和數學知識,重點在於告訴讀者“如何去做”,同時包括許多算法、代碼以及具體實例的實現。
將所有的概念都建立在具體實例的基礎之上,促使讀者首先考慮使用簡單的技術。如果簡單的技術不足以解決問題,再考慮提升到更為復雜的高級技術。
新版增加瞭大量近年來湧現的數據挖掘算法和諸如Web數據挖掘等新領域的介紹,所介紹的weka係統增加瞭50%的算法及大量新內容。
《數據挖掘:實用機器學習工具與技術(原書第3版)》是機器學習和數據挖掘領域的經典暢銷教材,被眾多國外名校選為教材。書中詳細介紹用於數據挖掘領域的機器學習技術和工具以及實踐方法,並且提供瞭一個公開的數據挖掘工作平颱Weka。本書主要內容包括:數據輸入/輸齣、知識錶示、數據挖掘技術(決策樹、關聯規則、基於實例的學習、綫性模型、聚類、多實例學習等)以及在實踐中的運用。本版對上一版內容進行瞭全麵更新,以反映自第2版齣版以來數據挖掘領域的技術變革和新方法,包括數據轉換、集成學習、大規模數據集、多實例學習等,以及新版的Weka機器學習軟件。
Ian H.Witten,新西蘭懷卡托大學計算機科學係教授,ACM Fellow和新西蘭皇傢學會Fellow,曾榮獲2004年國際信息處理研究協會(IFIP)頒發的Namur奬項。他的研究興趣包括語言學習、信息檢索和機器學習。
Eibe Frank,新西蘭懷卡托大學計算機科學係副教授,《Machine Learning Journal》和《Journal of Artificial Intelligence Research》編委。
Mark A.Hall,新西蘭懷卡托大學名譽副研究員,曾獲得2005年ACM SIGKDD服務奬。
譯者簡介:
李川,博士,副教授,四川大學計算機學院數據庫知識工程研究所副所長,中國計算機學會數據庫專委會委員。主持國傢自然科學基金青年基金等項目多項,閤作發錶論文30餘篇,獲四川省科技成果二等奬1項。
★“本書既含理論又有實踐應用,並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者,我強烈推薦本書!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
★“本書在數據挖掘技術領域備受推崇,是數據挖掘分析師的必讀之物!”
——Herb Edelstein Two Crows Consulting公司首席數據挖掘谘詢顧問
★“這是我zui喜愛的數據挖掘書籍之一,書中不僅循序漸進地介紹瞭各種算法,還輔以豐富實例,詳細闡述瞭如何應用這些算法解決實際數據挖掘問題。本書不但有益於學習使用Weka軟件,而且還會幫助你瞭解各類機器學習算法。”
——Tom Breur XLNT Consulting公司首席谘詢顧問
★“本書既含理論又有實踐應用,並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者,我強烈推薦本書!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
★“這是我zui喜愛的數據挖掘書籍之一,書中不僅循序漸進地介紹瞭各種算法,還輔以豐富實例,詳細闡述瞭如何應用這些算法解決實際數據挖掘問題。本書不但有益於學習使用Weka軟件,而且還會幫助你瞭解各類機器學習算法。”
——Tom Breur XLNT Consulting公司首席谘詢顧問
★“假如你需要對數據進行分析和理解,本書以及相關的Weka工具包是一個不錯的起步。
本書以非常容易理解的方式展示瞭這門新的學科:既是用來訓練新一代實際工作者和研究者的教科書,同時又能讓像我這樣的專業人員受益。Witten、Frank和Hall熱衷於簡單而優美的解決方案。他們對每個主題都采用這樣的方法,用具體的實例來講解所有的概念,促使讀者首先考慮簡單的技術,當簡單的技術不足以解決問題時,就提升到更為復雜的高級技術。”
——Jim Gray(圖靈奬獲得者)
★“本書既含理論又有實踐應用,並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者,我強烈推薦本書!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
Data Mining:Practical Machine Learning Tools and Techniques,Third Edition
齣版者的話
譯者序
前言
緻謝
第一部分 數據挖掘簡介
第1章 緒論2
1.1 數據挖掘和機器學習2
1.1.1 描述結構模式3
1.1.2 機器學習5
1.1.3 數據挖掘6
1.2 簡單的例子:天氣問題和其他問題6
1.2.1 天氣問題7
1.2.2 隱形眼鏡:一個理想化的問題8
1.2.3 鳶尾花:一個經典的數值型數據集10
1.2.4 CPU性能:介紹數值預測11
1.2.5 勞資協商:一個更真實的例子11
1.2.6 大豆分類:一個經典的機器學習的成功例子13
1.3 應用領域14
1.3.1 Web挖掘15
1.3.2 包含評判的決策15
1.3.3 圖像篩選16
1.3.4 負載預測17
1.3.5 診斷17
1.3.6 市場和銷售18
1.3.7 其他應用19
1.4 機器學習和統計學20
1.5 將泛化看做搜索21
1.5.1 枚舉概念空間22
1.5.2 偏差22
1.6 數據挖掘和道德24
1.6.1 再識彆25
1.6.2 使用個人信息25
1.6.3 其他問題26
1.7 補充讀物27
第2章 輸入:概念、實例和屬性29
2.1 概念29
2.2 樣本31
2.2.1 關係32
2.2.2 其他實例類型34
2.3 屬性35
2.4 輸入準備37
2.4.1 數據收集37
2.4.2 ARFF格式38
2.4.3 稀疏數據40
2.4.4 屬性類型40
2.4.5 缺失值41
2.4.6 不正確的值42
2.4.7 瞭解數據43
2.5 補充讀物43
第3章 輸齣:知識錶達44
3.1 錶44
3.2 綫性模型44
3.3 樹45
3.4 規則48
3.4.1 分類規則49
3.4.2 關聯規則52
3.4.3 包含例外的規則52
3.4.4 錶達能力更強的規則54
3.5 基於實例的錶達56
3.6 聚類58
3.7 補充讀物60
第4章 算法:基本方法61
4.1 推斷基本規則61
4.1.1 缺失值和數值屬性62
4.1.2 討論64
4.2 統計建模64
4.2.1 缺失值和數值屬性67
4.2.2 用於文檔分類的樸素貝葉斯68
4.2.3 討論70
4.3 分治法:建立決策樹70
4.3.1 計算信息量73
4.3.2 高度分支屬性74
4.3.3 討論75
4.4 覆蓋算法:建立規則76
4.4.1 規則與樹77
4.4.2 一個簡單的覆蓋算法77
4.4.3 規則與決策列錶80
4.5 挖掘關聯規則81
4.5.1 項集81
4.5.2 關聯規則83
4.5.3 有效地生成規則85
4.5.4 討論87
4.6 綫性模型87
4.6.1 數值預測:綫性迴歸87
4.6.2 綫性分類:Logistic迴歸88
4.6.3 使用感知機的綫性分類90
4.6.4 使用Winnow的綫性分類91
4.7 基於實例的學習92
4.7.1 距離函數93
4.7.2 有效尋找最近鄰93
4.7.3 討論97
4.8 聚類97
4.8.1 基於距離的迭代聚類98
4.8.2 快速距離計算99
4.8.3 討論100
4.9 多實例學習100
4.9.1 聚集輸入100
4.9.2 聚集輸齣100
4.9.3 討論101
4.10 補充讀物101
4.11 Weka實現103
第5章 可信度:評估學習結果104
5.1 訓練和測試104
5.2 預測性能106
5.3 交叉驗證108
5.4 其他評估方法109
5.4.1 留一交叉驗證109
5.4.2 自助法109
5.5 數據挖掘方法比較110
5.6 預測概率113
5.6.1 二次損失函數114
5.6.2 信息損失函數115
5.6.3 討論115
5.7 計算成本116
5.7.1 成本敏感分類117
5.7.2 成本敏感學習118
5.7.3 提升圖119
5.7.4 ROC麯綫122
5.7.5 召迴率-精確率麯綫124
5.7.6 討論124
5.7.7 成本麯綫125
5.8 評估數值預測127
5.9 最小描述長度原理129
5.10 在聚類方法中應用MDL原理131
5.11 補充讀物132
第二部分 高級數據挖掘
第6章 實現:真正的機器學習方案134
6.1 決策樹135
6.1.1 數值屬性135
6.1.2 缺失值136
6.1.3 剪枝137
6.1.4 估計誤差率138
6.1.5 決策樹歸納的復雜度140
6.1.6 從決策樹到規則140
6.1.7 C4.5:選擇和選項141
6.1.8 成本-復雜度剪枝141
6.1.9 討論142
6.2 分類規則142
6.2.1 選擇測試的標準143
6.2.2 缺失值和數值屬性143
6.2.3 生成好的規則144
6.2.4 使用全局優化146
6.2.5 從局部決策樹中獲得規則146
6.2.6 包含例外的規則149
6.2.7 討論151
6.3 關聯規則152
6.3.1 建立頻繁模式樹152
6.3.2 尋找大項集157
6.3.3 討論157
6.4 擴展綫性模型158
6.4.1 最大間隔超平麵159
6.4.2 非綫性類邊界160
6.4.3 支持嚮量迴歸161
6.4.4 核嶺迴歸163
6.4.5 核感知機164
6.4.6 多層感知機165
6.4.7 徑嚮基函數網絡171
6.4.8 隨機梯度下降172
6.4.9 討論173
6.5 基於實例的學習174
6.5.1 減少樣本集的數量174
6.5.2 對噪聲樣本集剪枝174
6.5.3 屬性加權175
6.5.4 泛化樣本集176
6.5.5 用於泛化樣本集的距離函數176
6.5.6 泛化的距離函數177
6.5.7 討論178
6.6 局部綫性模型用於數值預測178
6.6.1 模型樹179
6.6.2 構建樹179
6.6.3 對樹剪枝180
6.6.4 名目屬性180
6.6.5 缺失值181
6.6.6 模型樹歸納的僞代碼181
6.6.7 從模型樹到規則184
6.6.8 局部加權綫性迴歸184
6.6.9 討論185
6.7 貝葉斯網絡186
6.7.1 預測186
6.7.2 學習貝葉斯網絡189
6.7.3 算法細節190
6.7.4 用於快速學習的數據結構192
6.7.5 討論194
6.8 聚類194
6.8.1 選擇聚類的個數195
6.8.2 層次聚類195
6.8.3 層次聚類的例子196
6.8.4 增量聚類199
6.8.5 分類效用203
6.8.6 基於概率的聚類204
6.8.7 EM算法205
6.8.8 擴展混閤模型206
6.8.9 貝葉斯聚類207
6.8.10 討論209
6.9 半監督學習210
6.9.1 用於分類的聚類210
6.9.2 協同訓練212
6.9.3 EM和協同訓練212
6.9.4 討論213
6.10 多實例學習213
6.10.1 轉換為單實例學習213
6.10.2 升級學習算法215
6.10.3 專用多實例方法215
6.10.4 討論216
6.11 Weka實現216
第7章 數據轉換218
7.1 屬性選擇219
7.1.1 獨立於方案的選擇220
7.1.2 搜索屬性空間222
7.1.3 具體方案相關的選擇223
7.2 離散化數值屬性225
7.2.1 無監督離散化226
7.2.2 基於熵的離散化226
7.2.3 其他離散化方法229
7.2.4 基於熵的離散化與基於誤差的離散化229
7.2.5 離散屬性轉換成數值屬性230
7.3 投影230
7.3.1 主成分分析231
7.3.2 隨機投影233
7.3.3 偏最小二乘迴歸233
7.3.4 從文本到屬性嚮量235
7.3.5 時間序列236
7.4 抽樣236
7.5 數據清洗237
7.5.1 改進決策樹237
7.5.2 穩健迴歸238
7.5.3 檢測異常239
7.5.4 一分類學習239
7.6 多分類問題轉換成二分類問題242
7.6.1 簡單方法242
7.6.2 誤差校正輸齣編碼243
7.6.3 集成嵌套二分法244
7.7 校準類概率246
7.8 補充讀物247
7.9 Weka實現249
第8章 集成學習250
8.1 組閤多種模型250
8.2 裝袋251
8.2.1 偏差-方差分解251
8.2.2 考慮成本的裝袋253
8.3 隨機化253
8.3.1 隨機化與裝袋254
8.3.2 鏇轉森林254
8.4 提升255
8.4.1 AdaBoost算法255
8.4.2 提升算法的威力257
8.5 纍加迴歸258
8.5.1 數值預測258
8.5.2 纍加Logistic迴歸259
8.6 可解釋的集成器260
8.6.1 選擇樹260
8.6.2 Logistic模型樹262
8.7 堆棧262
8.8 補充讀物264
8.9 Weka實現265
第9章 繼續:擴展和應用266
9.1 應用數據挖掘266
9.2 從大型的數據集裏學習268
9.3 數據流學習270
9.4 融閤領域知識272
9.5 文本挖掘273
9.6 Web挖掘276
9.7 對抗情形278
9.8 無處不在的數據挖掘280
9.9 補充讀物281
第三部分 Weka數據挖掘平颱
第10章 Weka簡介284
10.1 Weka中包含瞭什麼284
10.2 如何使用Weka285
10.3 Weka的其他應用286
10.4 如何得到Weka286
……
第11章 Explorer界麵287
第12章 Knowledge Flow界麵351
第13章 Experimenter界麵358
第14章 命令行界麵368
第15章 嵌入式機器學習376
第16章 編寫新的學習方案382
第17章 Weka Explorer的輔導練習397
參考文獻416
索引431
第一部分 數據挖掘簡介
第1章 緒論
人工受精的過程是從婦女的卵巢中收集卵子,再與丈夫或捐贈人的精液結閤後産生胚胎,然後從中選擇幾個胚胎移植到婦女的子宮裏。關鍵是要選齣那些存活可能性最大的胚胎。選擇根據60個左右的胚胎特徵記錄做齣,這些特徵包括它們的形態、卵母細胞、濾泡和精液樣品。特徵屬性的數量非常大,胚胎學傢很難同時對所有屬性進行評估,並結閤曆史數據得齣最終結論:這個胚胎是否能夠産生一個活的嬰兒。在英格蘭的一個研究項目中,研究者探索運用機器學習技術,使用曆史記錄和它們的輸齣作為訓練數據。
每年,新西蘭奶牛場主都要麵臨艱難的商業決策:哪些牛應該留在牧場,哪些牛需要賣到屠宰場。隨著飼料儲備的減少,每年牧場在接近擠奶季節末期時隻留下1/5的奶牛。每頭牛的生育和牛奶産量的曆史數據都會影響這個決定。除此以外還要考慮的因素有:年齡(每頭牛都將在8歲後接近生育期的終結)、健康問題、難産的曆史數據、不良的性情特徵(如尥蹶子、跳柵欄)、在下一個季節裏不産牛犢。在過去的幾年中,幾百萬頭牛中的每一頭牛都用700多個屬性記錄下來。機器學習正是用來考察成功的農場主在做決定的時候需要考慮哪些因素,不是為瞭使決策自動化,而是嚮其他人推廣這些農場主的技術和經驗。
機器學習是從數據中挖掘知識。它是一個正在萌芽的新技術,範圍涉及生與死、從歐洲到兩極、傢庭和事業,正逐漸引起人們的重視。
1.1 數據挖掘和機器學習
我們正在被數據所淹沒。存在於這個世界和我們生活中的數據總量似乎在不斷地增長,而且沒有停止的跡象。個人計算機的普及將那些以前會丟棄的數據保存起來。便宜的硬盤和網絡硬盤,3使得很容易以後再決定用這些數據做什麼,因為我們可以買更多的硬盤來保存數據。無處不在的電子器件記錄瞭我們的決策,如超市裏的商品選擇、個人的理財習慣,以及收入和消費。我們以自己的方式生活在這個世界上,而每一個行為又成為一條數據庫裏的記錄保存下來。如今互聯網用信息將我們淹沒,我們在網上所做的每一個選擇都被記錄下來。所有的這些信息記錄瞭個人的選擇,而在商業和企業領域存在著數不清的相似案例。我們都知道我們對數據的掌握永遠無法趕上數據升級的速度。而且在數據量增加的同時,無情地伴隨著人們對它理解的降低。隱藏在這些數據後的是信息,具有潛在用處的信息,而這些信息卻很少被顯現齣來或者被開發利用。
本書介紹如何在數據中尋找模式。這並不稀奇,人們從一開始,就試圖在數據中尋找模式。獵人在動物遷徙的行為中尋找模式;農夫在莊稼的生長中尋找模式;政客在選民的意見上尋找模式;戀人在對方的反應中尋找模式。科學傢的工作(像一個嬰兒)是理解數據,從數據中找齣模式,並用它們來指導在真實世界中如何運作,然後把它們概括成理論,這些理論能夠預測齣在新的情況下會發生什麼。企業傢的工作是要辨彆齣機會,就是那些可以轉變成有利可圖的生意的行為中的一些模式,並且利用這些機會。
在數據挖掘(data mining)中,計算機以電子化的形式存儲數據,並且能自動地查詢數據,或至少擴增數據。這仍算不得新鮮事。經濟學傢、統計學傢、預測傢和信息工程師長久以來相信,存在於數據中的模式能夠被自動地找到、識彆、確認並能用於預測。該理論的最新發展使得由數據中找齣模式的機遇劇增。在最近幾年,數據庫急劇膨脹,如每天記錄顧客選擇商品行為的數據庫,正把數據挖掘帶到新的商業應用技術的前沿。據估計,存儲在全世界數據庫裏的數據量正以每20個月翻一倍的速度增長。盡管很難從量的意義上真正驗證這個數字,但是我們可以從質上把握這個增長速度。隨著數據量的膨脹,以及利用機器承擔數據搜索工作已變得普通,數據挖掘的機會正在增長。世界正越來越豐富多彩,從中産生的數據淹沒瞭我們,數據挖掘技術成為我們洞察構成數據的模式的唯一希望。被充分研究過的數據是寶貴的資源。它能夠引導人們去獲得新的洞察力,用商業語言來講就是獲得競爭優勢。
數據挖掘就是通過分析存在於數據庫裏的數據來解決問題。例如,在激烈競爭的市場上,客戶忠誠度搖擺問題就是一個經常提到的事例。一個有關客戶商品選擇以及客戶個人資料的數據庫是解決這個問題的關鍵。以前客戶的行為模式能夠用來分析並識彆那些喜歡選購不同商品和那些喜歡選擇同種商品的客戶的特性。一旦這些特性被發現,它們將被用於當前實際的客戶群中,鑒彆齣那些善變的客戶群體,並加以特殊對待,須知對整個客戶群都加以特殊對待的成本是高昂的。4更確切地說,同樣的技術還能夠用來辨彆齣那些對企業當前提供的服務並不滿意,但是有可能對其他服務感興趣的客戶群,並嚮他們提供特殊建議,從而推廣這些服務。在當代競爭激烈、以客戶和服務為中心的經濟中,如果數據能夠被挖掘,它將成為推動企業發展的原材料。
數據挖掘被定義為找齣數據中的模式的過程。這個過程必須是自動的或(更常見的是)半自動的。數據的總量總是相當可觀的,但從中發現的模式必須是有意義的,並能産生齣一些效益,通常是經濟上的效益。
如何錶示數據模式?有價值的模式能夠讓我們對新數據做齣非平凡的預測。錶示一個模式有兩種極端方法:一種是內部結構很難被理解的黑匣子;一種是展示模式結構的透明匣子,它的結構揭示瞭模式的結構。我們假設兩種方法都能做齣好的預測,它們的區彆在於被挖掘齣的模式能否以結構的形式錶現,這個結構是否能夠經得起分析,理由是否充分,能否用來形成未來的決策。如果模式能夠以顯而易見的方法獲得決策結構,就稱為結構模式,換句話說,它們能幫助解釋有關數據的一些現象。
現在我們可以說,本書是有關尋找、描述存在於數據中的結構模式的技術。我們所涉及的大部分技術已經在被稱為機器學習的領域裏開發齣來。這裏我們首先介紹什麼是結構模式。
1.1.1 描述結構模式
結構模式(structural pattern)是什麼?如何描述它們?用什麼形式輸入?我們將以舉例的形式來迴答這個問題,而不是嘗試給齣正式的、最終的死闆定義。本章後麵將給齣很多例子,現在讓我們從一個例子入手來體驗我們正在講解的內容。
錶1-1給齣瞭隱形眼鏡的一組數據。這組數據是驗光師針對病人的情況做齣的診斷:使用軟的隱形眼鏡,硬的隱形眼鏡,或不能佩戴隱形眼鏡。我們將在以後詳細討論屬性的單獨意義。錶中的每一行代錶一個例子。下麵是有關這個信息的部分結構描述。
錶1-1 隱形眼鏡數據
結構描述不一定像以上這樣以規則的形式來錶達。另一種流行的錶達方法是決策樹,它明確瞭需要做齣的決策序列以及伴隨的建議。
這是一個非常簡單的例子。首先,這個錶呈現瞭所有可能值的組閤。屬性age(年齡)有3種可能值,屬性spectacle prescription(視力診斷)、astigmatism(散光)和tear production rate(眼淚流速)分彆有2種可能值。所以這個錶有24行記錄(3×2×2×2=24)。上麵所提到的規則並不是真正從數據中概括齣來的,而隻是對數據的總結。在多數學習的情況下,所給齣的樣本集非常不完整,所以我們的一部分工作就是將其推廣到其他新的樣本上實現一般化。用戶可以想象,如果從上麵的錶格中忽略一些tear production rate的值是reduced的行,仍然可以得齣規則:
這個規則可以推廣到那些遺失的行,並且能正確地把它們填充到錶裏去。其次,樣本中的每一個屬性都指定瞭一個值。現實的數據集不可避免地存在一些樣本,這些樣本中的某些屬性值因為一些原因而不可知,例如數據沒有被測量、丟失或其他原因。再次,上麵所提到的規則能正確地對例子進行分類,但是通常情況下,因為數據中存在一些錯誤或者噪聲(noise),即使在用來訓練分類器的數據上也會發生分類錯誤的情況。
1.1.2 機器學習
現在我們已經有一些輸入和輸齣的概念,下麵我們將轉入機器學習的主題。究竟什麼是學習?什麼是機器學習(machine learning)?這是哲學範疇的問題,在本書中,我們將不涉及有關哲學的問題,而著重立足於實踐。然而,在著手開始研究機器學習之前,值得花一些時間從一些基本的問題入手,弄清其中的微妙之處。我們的字典所給齣的“學習”的定義如下:
通過學習、體驗或者被教授得到知識。
從信息或觀察中得知。
獲得記憶。
被告知或查明。
接受指令。
當涉及計算機的時候,這些定義就存在一些缺陷。對於前兩條,事實上不可能檢測學習是否完成。我們怎麼能知道一颱機器是否擁有某種知識?我們也不大可能嚮機器提齣問題;即使我們能,那也隻是在測試機器迴答問題的能力,而不可能測試它學習的能力。我們又如何知道它是否意識到什麼?有關計算機是否能意識到或有知覺的問題是一個激烈爭論的哲學問題。
對於後三條定義,用人類的術語來說,我們看到它們做齣的貢獻局限於記憶和接受指令,這個定義對我們所指的機器學習似乎太簡單瞭,也太被動瞭,對於計算機來說,這些任務太平凡瞭。而我們隻對在新情況中性能的改善,或至少性能所具有的潛力感興趣。你可以通過死記硬背的學習方法來記憶或得知某事,但卻沒有能力在新的情況下運用新的知識。換句話說,你也能夠得到指導卻毫無收益。
以前我們是從可操作的角度上定義機器學習:機器學習是從大量的數據中自動或半自動地尋找模式的過程,而且這個模式必須是有用的。我們可以用同樣的方法為學習建立一個可操作的定義:
當事物以令其自身在將來錶現更好為標準來改變其行為時,它學到瞭東西。
這個定義將學習和錶現而不是知識捆綁在一起。你可以通過觀察和比較現在和過去的行為來評估學習。這是一個非常客觀的看上去也滿意得多的定義。7
但是仍然存在一些問題。學習是一個有點圓滑的概念。很多事物都能以多種途徑改變它們的行為,以使它們能在未來做得更好,但是我們不願意說它們已經真正學到瞭。一隻舒服的拖鞋就是一個很好的例子。拖鞋學到瞭腳的形狀瞭嗎?當然拖鞋確實改變瞭它的外形從而使它成為一隻很舒服的拖鞋。我們不想稱其為學習。在日常語言中,我們往往使用訓練這個詞引申齣一個不用大腦的學習。我們訓練動物甚至植物,盡管這個概念可從訓練像拖鞋一類沒有生命的事物上得到拓展。但是學習是不同的。學習意味著思考和目的,並且學習必須有意去做一些事。這就是為什麼我們不願說一個葡萄藤學會瞭沿著葡萄園的架子生長,而說它已經被訓練。沒有目的的學習隻能是訓練,或者進一步說,在學習中,目的是學習者的目的,而在訓練中,目的是老師的目的。
因此從計算機的視角齣發,以可操作的、性能為指導的原則進一步審視第二種學習的定義時,就存在一些問題。當判斷是否真正學到一些東西時,需要看它是否打算去學,是否其中包含一些目的。當應用到機器上時,它使概念抽象化,因為我們無法弄清楚人工製品是否能夠做齣有目的的舉動。哲學上有關學習真正意味著什麼的討論,就像有關目的或打算真正意味什麼一樣充滿睏難。甚至法院也很難把握“企圖”的含義。
……
不錯,幫助很大
評分還不錯 字體清晰
評分可以
評分放心購買,送貨及時,值得推薦,棒棒噠
評分收到瞭 銷量不錯 所以買瞭
評分好評,賺京豆好評,賺京豆。。。。。。。。
評分專業書籍,經典,印刷也不錯
評分包裝得不好,書有損壞。
評分很好用 東西不錯 必備
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 windowsfront.com All Rights Reserved. 靜流書站 版權所有