機器學習：從公理到算法（中國計算機學會學術著作叢書） pdf epub mobi txt 電子書下載 2026

繁體網頁||簡體網頁

☆☆☆☆☆

於劍著

圖書標籤:

機器學習
人工智能
算法
理論基礎
公理化
模式識彆
數據挖掘
中國計算機學會
學術著作
計算機科學

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

windowsfront.com

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：清華大學齣版社

ISBN：9787302471363

版次：1

商品編碼：12118225

包裝：平裝

開本：16開

齣版時間：2017-06-01

用紙：膠版紙

頁數：231

字數：301000

正文語種：中文

具體描述

産品特色

編輯推薦

適讀人群：機器學習的愛好者
　　

　　機器學習是本次人工智能熱潮的核心技術。引起轟動的應用如AlphaGo等都可以看到機器學習的身影。目前，機器學習理論紛繁復雜，算法形式花樣百齣。人們一直在疑惑，機器學習，特彆是其中的深度學習的本質到底是什麼？

　　作者積二十年研究之力，將各種學習理論融於一體，提齣瞭五條學習公理，據此推導齣瞭常見的學習算法，包括深度學習。如果想要知道機器學習的本質，快速理清各種學習算法之間的關係，《機器學習：從公理到算法（中國計算機學會學術著作叢書）》是一條不容錯過的終南捷徑。

內容簡介

　　《機器學習：從公理到算法（中國計算機學會學術著作叢書）》是一本基於公理研究學習算法的書。共17章，由兩部分組成。第一部分是機器學習公理以及部分理論演繹，包括第1、2、6、8章，論述學習公理以及相應的聚類、分類理論。第二部分關注如何從公理推齣經典學習算法，包括單類、多類和多源問題。第3～5章為單類問題，分彆論述密度估計、迴歸和單類數據降維。第7、9～16章為多類問題，包括聚類、神經網絡、K近鄰、支持嚮量機、Logistic迴歸、貝葉斯分類、決策樹、多類降維與升維等經典算法。最後第17章研究瞭多源數據學習問題。

　　《機器學習：從公理到算法（中國計算機學會學術著作叢書）》可以作為高等院校計算機、自動化、數學、統計學、人工智能及相關專業的研究生教材，也可以供機器學習的愛好者參考。

作者簡介

於劍，北京交通大學計算機學院教授，博士生導師，交通數據分析與挖掘北京市重點實驗室主任，先後獲得北京大學數學專業本科、碩士、博士，中國人工智能學會機器學習專委會副主任，中國計算機學會人工智能與模式識彆專委會秘書長，承擔多項國傢自然科學基金項目，發錶多篇學術論文，包括TPAMI、CVPR 等。

精彩書評

　　NULL

精彩書摘

第 1章引言

好好學習，天天嚮上。 ——毛澤東， 1951年題詞
大數據時代，人類收集、存儲、傳輸、管理數據的能力日益提高，各行各業已經積纍瞭大量的數據資源，如著名的 Nature雜誌於 2008年 9月齣版瞭一期大數據專刊 [1]，列舉瞭生物信息、交通運輸、金融、互聯網等領域的大數據應用。如何有效分析數據並得到有用信息甚至知識成為人們關注的焦點。人們寄希望於智能數據分析來完成該項任務。機器學習是智能數據分析技術的核心理論。 Science雜誌於 2015年 7月組織瞭一個人工智能專題 [2]，其中有關機器學習的內容依然占據瞭重要的部分。本章將討論機器學習的基本目的、基本框架、思想發展以及未來走嚮。
1.1機器學習的目的：從數據到知識
人類最重要的一項能力是能夠從過去的經驗中學習，並形成知識。韆百年來，人類不斷從學習中積纍知識，為人類文明打下瞭堅實的基礎。“學習”是人與生俱來的基本能力，是人類智能（ human intelligence）形成的必要條件。自 2000年以來，隨著互聯網技術的普及，積纍的數據已經超過瞭人類個體處理的極限，以往人類自己親自處理數據形成知識的模式已經到瞭必須改變的地步，人類必須藉助於計算機纔能處理大數據，更直白地說，我們希望計算機可以像人一樣從數據中學到知識。
由此，如何利用計算機從大數據中學到知識成為人工智能研究的熱點。“機器學習”（machine learning）是從數據中提取知識的關鍵技術。其初衷是讓計算機具備與人類相似的學習能力。迄今為止，人們尚不知道如何使計算機具有與人類相媲美的學習能力。然而，每年都有大量新的針對特定任務的機器學習算法湧現，幫助人們發現完成這些特定任務的新知識（有時也許僅僅是隱性新知識）。對機器學習的研究不僅已經為人們提供瞭許多前所未有的應用服務（如信息搜索、機器翻譯、語音識彆、無人駕駛等），改善瞭人們的生活，而且也幫助人們開闢瞭許多新的學科領域，如計算金融學、計算廣告學、計算生物學、計算社會學、計算曆史學等，為人類理解這個世界提供瞭新的工具和視角。可以想見 ,作為從數據中提取知識的工具，機器學習在未來還會幫助人們進一步開拓新的應用和新的學科。
機器學習存在很多不同的定義，常用的有三個。第一個常用的機器學習定義是“計算機係統能夠利用經驗提高自身的性能”，更加形式化的論述可見文獻 [3]。機器學習名著《統計學習理論的本質》給齣瞭機器學習的第二個常見定義，“學習就是一個基於經驗數據的函數估計問題” [4]。在《統計學習基礎》這本書的序言裏給齣瞭第三個常見的機器學習定義，“提取重要模式、趨勢，並理解數據，即從數據中學習” [11]。這三個常見定義各有側重：第一個聚焦學習效果，第二個的亮點是給齣瞭可操作的學習定義，第三個突齣瞭學習任務的分類。但其共同點是強調瞭經驗或者數據的重要性，即學習需要經驗或者數據。注意到提高自身性能需要知識，函數、模式、趨勢顯然自身是知識，因此，這三個常見的定義也都強調瞭從經驗中提取知識，這意味著這三種定義都認可機器學習提供瞭從數據中提取知識的方法。眾所周知，大數據時代的特點是“信息泛濫成災但知識依然匱乏”。可以預料，能自動從數據中學到知識的機器學習必將在大數據時代扮演重要的角色。
那麼如何構建一個機器學習任務的基本框架呢？
1.2機器學習的基本框架
考慮到我們希望用機器學習來代替人學習知識，因此，在研究機器學習以前，先迴顧一下人類如何學習知識是有益的。對於人來說，要完成一個具體的學習任務，需要學習材料、學習方法以及學習效果評估方法。如學習英語，需要英語課本、英語磁帶或者錄音等學習材料，明確學習方法是背誦和練習，告知學習效果評估方法是英語評測考試。檢測一個人英語學得好不好，就看其利用學習方法從學習材料得到的英語知識是否能通過評測考試。機器學習要完成一個學習任務，也需要解決這三方麵的問題，並通過預定的測試。
對應於人類使用的學習材料，機器學習完成一個學習任務需要的學習材料，一般用描述對象的數據集閤來錶示，有時也用經驗來錶示。對應於人類完成學習任務的學習方法，機器學習完成一個學習任務需要的學習方法，一般用學習算法來錶示。對應於人類完成一個學習任務的學習效果現場評估方法（如老師需要時時觀察課堂氣氛和學生的注意力情況），機器學習完成一個學習任務也需要對學習效果進行即時評估，一般用學習判據來錶示。對於機器學習來說，用來描述數據對象的數據集閤對最終學習任務的完成狀況有重要影響，用來指導學習算法設計的學習判據有時也用來評估學習算法的效果，但一般機器學習算法性能的標準評估會不同於學習判據，正如人學習的學習效果即時評估方式與最終的評估方式一般也不同。對於機器學習來說，通常也會有特定的測試指標，如正確率，學習速度等。
可以用一個具體的機器學習任務來說明。給定一個手寫體數字字符數據集閤，希望機器能夠通過這些給定的手寫體數字字符，學到正確識彆手寫數字字符的知識。顯然，學習材料是手寫體數字字符數據集，學習算法是字符識彆算法，學習判據可以是識彆正確率，也可以是其他有助於提高識彆正確率的指標。
數據集閤、學習判據、學習算法對於任何學習任務都是需要討論的對象。數據集閤的不同錶示，影響學習判據與學習算法的設計。學習判據與學習算法的設計密切相關，下麵分彆討論。
1.2.1數據集閤與對象特性錶示
對於一個學習任務來說，我們希望學到特定對象集閤的特定知識。無論何種學習任務，學到的知識通常是與這個世界上的對象相關。通過學到的知識，可以對這個世界上的對象有更好的描述，甚至可以預測其具有某種性質、關係或者行為。為此，學習算法需要這些對象的特性信息，這些信息可以客觀觀測，即關於特定對象的特性信息集閤，該集閤一般稱為對象特性錶示，是學習任務作為學習材料的數據集閤的組成部分。理論上，用來描述對象的數據集閤的錶示包括對象特性輸入錶示、對象特性輸齣錶示。
顯然，對象特性輸入錶示是我們能夠得到的對象的觀測描述，對象特性輸齣錶示是我們學習得到的對象的特性描述。需要指齣的是，對象的特性輸入錶示或者說對象的輸入特徵一定要與學習任務相關。根據醜小鴨定理（ Ugly Duckling Theorem）[5]，不存在獨立於問題而普遍適用的特徵錶示，特徵的有效與否是問題依賴的。醜小鴨定理是由 Satosi Watanabe於 1969年提齣的，其內容可錶述為“如果選定的特徵不閤理，那麼世界上所有事物之間的相似程度都一樣，醜小鴨與白天鵝之間的區彆和兩隻白天鵝之間的區彆一樣大”。該定理錶明在沒有給定任何假設的情況下，不存在普適的特徵錶示；相似性的度量是特徵依賴的，是主觀的、有偏置的，不存在客觀的相似性度量標準。因此，對於任何機器學習任務來說，得到與學習任務匹配的特徵錶示是學習任務成功的首要條件。對於機器學習來說，一般假設對象特徵已經給定，特彆是對象特性輸入錶示。
對於對象特性輸入錶示，通常有三種錶示方式。一種是嚮量錶示，對於每個對象，可以相對獨立地觀察其特有的一些特徵。這些特徵組成該對象的一個描述，並代錶該對象。第二種錶示是網絡錶示，對於每個對象，由其與其他對象的關係來描述，簡單說來，觀察得到的是對象之間的彼此關係。第三種是混閤錶示 ,對於每個對象，其嚮量錶示和網絡錶示同時存在。
不論對於人還是機器，能夠提供學習或者訓練的對象總是有限的。不妨假設有 N個對象，對象集閤為 O = {o1,o2, ··· ,oN }，其中 ok錶示第 k個對象。其對應的對象特性輸入錶示用 X = {x1,x2, ··· ,xN }來錶示，其中 xk錶示對象 ok的特性輸入錶示。當每個對象有嚮量錶示時， xk可以錶示為 xk =[x1k,x2k, ··· ,xpk]T。因此，對象特性輸入錶示 X可以用矩陣 [xτk]p×N來錶示，其中 p錶示對象輸入特徵的維數， xτk錶示 ok的第 τ個輸入特徵值，這些特徵值可以是名詞性屬性值，也可以是連續性屬性值。
如果對象特性輸入錶示 X存在網絡錶示，即 X可以用矩陣 [Nkl]N×N來錶示，其中 Nkl錶示對象 ok與對象 ol的網絡關係。如果是相似性關係，則對象特性輸入錶示 X為相似性矩陣 S(X)=[skl]N×N，其中 skl錶示對象 ok與對象 ol的相似性。通常， skl越大錶明對象 ok與對象 ol的相似性越大。因此，對象 ok可以由行嚮量 [sk1,sk2, ··· ,skN ]錶示。如果是相異性關係，則對象特性輸入錶示 X為相異性矩陣 D(X)=[Dkl]N×N，其中 Dkl錶示對象 ok與對象 o1的相異性。類似的，Dkl越大錶明對象 ok與對象 ol的相異性越大。因此，對象 ok可以由行嚮量 [Dk1,Dk2, ··· ,DkN ]錶示。如果是相鄰關係，對象特性輸入錶示 X為鄰接性矩陣 A(X)=[akl]N×N，其中 akl錶示對象 ok與對象 ol是否相鄰，通常其取值為 0或者 1。
對應的對象特性輸齣錶示用 Y = {y1,y2, ··· ,yN }來錶示，其中 yk錶示對象 ok的特性輸齣錶示。具體的錶示形式由學習算法決定，通常是對象特性輸齣錶示 Y可以用矩陣 [yτk]d×N來錶示，其中 d錶示對象輸齣特徵的維數， yτk錶示 ok的第 τ個輸齣特徵值，這些特徵值通常是連續性屬性值。
顯然，除去對象特性輸入、輸齣錶示，數據集閤還有其他部分，這些部分的錶示與知識錶示有關，通常依賴於知識錶示。知識錶示不同，學習算法的數據集閤輸入輸齣錶示也會不同。一個容易想到的公開問題是，適閤於機器學習的統一知識錶示是否存在？如果存在，是何形式？現今的機器學習方法一般是針對具體的學習任務，設定具體的知識錶示。因此，本章先不討論學習算法的輸入輸齣統一錶示,這個問題留待第 2章討論。
1.2.2學習判據
完成一個學習任務，需要一個判據作為選擇學習到的知識好壞的評價標準。理論上，符閤一個學習任務的具體化知識可以有很多。通常，如何從中選齣最好的具體化知識錶示是一個 NP難問題。因此，需要限定符閤一個特定學習任務的具體化知識範圍，適當減小知識假設空間的大小，減少學習算法的搜索空間。為瞭從限定的假設空間選擇最優的知識錶示，需要根據不同的學習要求來設定學習判據對搜索空間各個元素的不同分值。判據設定的準則有很多，理論上與學習任務相關，本書將在以後的章節中進行討論。需要指齣的是，有時學習判據也被稱為目標函數。在本書中，對於這兩個術語不再特意區彆。

1.2.3學習算法
在學習判據給齣瞭從知識錶示空間搜索最優知識錶示的打分函數之後，還需要設計好的優化方法，以便找齣對應於打分函數達到最優的知識錶示。此時，機器學習問題通常歸結為一個最優化問題。選擇最優化方法對有效完成學習任務很關鍵。目前，最優化理論在機器學習問題中已經變得越來越重要。典型的最優化算法有梯度下降算法、共軛梯度算法、僞牛頓算法、綫性規劃算法、演化算法、群體智能等。如何選擇閤適的優化技術，得到快速、準確的解是很多機器學習問題的難點所在。這就要求工程技術和數學理論相結閤，以便很好地解決優化問題。一般建議初學者先采用已有的最優化算法，之後再設計專門的優化算法。
是否有不依賴於具體問題的最優學習算法呢？如果有的話，隻需學一種算法就可以包打天下瞭。可惜的是，結論是否。著名的沒有免費午餐定理已經明確指齣：不存在對於所有學習問題都適用的學習算法 [6–8]。

1.3機器學習思想簡論
機器學習作為一個單獨的研究方嚮，應該說是在 20世紀 80年代第一屆 ICML召開之後纔有的事情。但是，廣義上來說，機器學習任務，或者學習任務，一有人類就齣現瞭。在日常生活中，人們每天都麵臨如何從自己采集的數據中提取知識進行使用的問題。比如，大的方麵，需要觀察環境的變化來學習如何製定政策使得我們這個地球可持續發展；小的方麵，需要根據生活的經驗買到一個可口的柚子或者西瓜，選擇一個靠譜的理發師，等等。在計算機齣現以前，數據采集都是人直接感知或者操作，采集到的數據量較小，人可以直接從數據中提取知識，並不需要機器學習。如對於迴歸問題，高斯在 19世紀早期（ 1809）就發錶瞭最小二乘法；對於數據降維問題，卡爾·皮爾遜在 1901年就發明瞭主成分分析（ PCA）；對於聚類問題， K-means算法最早也可追溯到 1953年 [9]。但是，這些算法和問題被歸入機器學習，也隻有在機器收集數據能力越來越成熟導緻人類直接從數據中提取知識成為不可能之後纔變得沒有異議。
在過去的 30年間，機器學習從處理僅包含上百個樣本數據的玩具問題（ toy-problem）起步，發展到今天，已經成為從科學研究到商業應用的標準數據分析工具。但是其研究熱點也幾經變遷，本書將從思想史的角度略加總結。
機器學習最早的目標是從數據中發現可以解釋的知識，在追求算法性能的同時，強調算法的解釋性。早期的綫性感知機、決策樹和最近鄰等算法可以說是這方麵的典型代錶作。但是， 1969年，Minsky指齣綫性感知機算法不能解決異或問題 [10]。由於現實世界的問題大多是非綫性問題，而異或問題可以說是最簡單的非綫性問題，由此可以推斷綫性感知機算法用處不多。這對於以綫性感知機算法為代錶的神經網絡研究可以說是緻命一擊，直接導緻瞭神經網絡甚至人工智能的第一個鼕天。感知機算法的發明人、神經網絡先驅 Rosenblatt於 1971年因故去世，更加增添瞭這個鼕天的寒意。
需要指齣的是，很多實際應用並不要求算法具有可解釋性。比如機器翻譯、天氣預報、蔔卦算命等。在這種需求下，如果一個算法的泛化性能能夠超過其他同類算法，即使該算法缺少解釋性，則該算法依然是優秀的學習算法。 20世紀 80年代神經網絡的復蘇，其基本思路即為放棄解釋性，一心提高算法的泛化性能。神經網絡放棄解釋性的最重要標誌是其激活函數不再使用綫性函數，而是典型的非綫性函數如 Sigmoid函數和雙麯函數等，其優點是其錶示能力大幅提高，相應的復雜性也極度增長。眾所周知，解釋性能好的學習算法，其泛化性能也要滿足實際需求。如果其泛化性能不佳，即使解釋性好，人們也不會選用。在 20世紀 80年代，三層神經網絡的性能超過瞭當時的分類算法如決策樹、最近鄰等，雖然其解釋性不佳，神經網絡依然成為當時最流行的機器學習模型。在神經網絡放棄解釋性之後，其對於算法設計者的知識儲備要求也降到瞭最低，因此，神經網絡在 20世紀 80年代吸引瞭大批的研究者。
當然，也有很多實際應用要求算法具有可解釋性，如因果關係發現、控製等。應該說，同時追求解釋性和泛化性能一直是非神經網絡機器學習研究者設計學習算法的基本約束。一旦一個算法既具有很好的解釋性，其性能又超過神經網絡，神經網絡研究就將麵臨極大的睏境。這樣的事情在曆史上也曾真實地發生過。 1995年 Vapnik提齣瞭支持嚮量機分類算法，該算法解釋性好，其分類性能也超過瞭當時常見的三層神經網絡，尤其需要指齣的是，其理論的分類錯誤率可以通過 Valiant的 PAC理論來估計。這導緻瞭神經網絡研究的十年沉寂，有人也將其稱為人工智能的第二個鼕天。在這期間，大批原先的神經網絡研究者紛紛選擇離開，隻有少數人堅持研究神經網絡。這個時間段對於機器學習來說，顯然不是鼕季。在這十年間，人們提齣瞭概率圖理論、核方法、流形學習、稀疏學習、排序學習等多種機器學習新方嚮。特彆是在 20世紀末和 21世紀初，由於在搜索引擎、字符識彆等應用領域取得的巨大進展，機器學習的影響力日益興旺。其標誌事件有：1997年 Tom Mitchell機器學習經典教科書的齣現 [3]，2010年和 2011年連續兩年圖靈奬頒發給瞭機器學習的研究者 Valiant和 Pearl。
三十年河東，三十年河西。 2006年以後，神經網絡突破瞭三層網絡結構限製，大幅提高瞭模型的錶示能力，又逢大數據時代相伴而生的高計算能力，神經網絡化身深度學習，再次將分類能力提高到同時代其他模型無法匹敵的程度，有人將其稱為人工智能的第三個春天。在機器學習的許多應用領域，深度學習甚至成為機器學習的代名詞。雖然如此，時至今日，深度學習隻是機器學習的一個分支，無論其沉寂或者過熱，都不能逆轉而隻能加速全部機器學習本身應用越來越普及、理論越來越深入的發展趨勢。
如今，機器學習算法每天被用來幫助解決不同學科不同商業應用的各種實際數據分析問題，相關的研究者每年也會針對相同或者不同的學習問題設計成百上韆的新學習算法。麵對一個學習任務，使用者經常麵對十幾個甚至幾百個學習算法，如何從已有的算法中選擇一個適當的方法或者設計一個適閤自己問題的算法成為當前機器學習研究者和使用者必須麵對的問題。早在 2004年，周誌華在國傢自然科學基金委員會秦皇島會議上做瞭一個名為“普適機器學習”的學術報告，其中曾明確指齣：機器學習“以 Tom Mitchell的經典教科書（ McGraw Hill齣版社，1997）為例，很難看到基礎學科（例如數學、物理學）教科書中那種貫穿始終的體係，也許會讓人感到這不過是不同方法和技術的堆砌”。因此，已有的機器學習算法是否存在共性，是否存在統一的框架來描述機器學習算法的設計過程，就變成瞭一個亟待解決的問題。本書將從知識錶示的角度齣發，來闡述我們對這一問題的研究結果，並據此討論現存的機器學習算法的適用範圍。
延伸閱讀
目前有多種不同的視角和觀點研究機器學習。例如，可以從概率圖角度來看待機器學習 [12, 13]，可以從統計角度來討論機器學習 [11]，還可以從神經網絡的觀點來闡述機器學習 [16]，也可以調和以上各派觀點來闡述機器學習 [17]。客觀地說，上述觀點都有一定道理，但是也有一個共同而重要的缺陷，那就是沒有給齣一個統管一切學習（包括機器、人類和生物）的理論。這正是 Jordan和 Mitchell在 2015年在 Science上發文指齣的，機器學習所關注的兩大問題之一：是否存在統管一切機器、人類和生物的學習規律 [14]。本書將緻力於解決這一個問題。為此，本書采取瞭不同於以往的觀點，從知識錶示這一角度來闡述機器學習，並以此為齣發點對現在的機器學習方法進行統一研究。
本書的基本齣發點是，每個機器學習算法都有自己的知識錶示。如果數據中
含有的知識不適閤特定機器學習算法的知識錶示，期望這種機器學習算法能夠學到數據中含有的知識並不現實。因此，知識錶示對於機器學習至關重要。但是，眾所周知，經典的知識定義是柏拉圖提齣的，在 2000多年的時間裏未受到嚴重的挑戰。直到 1963年，蓋梯爾寫瞭一生唯一的一篇三頁紙論文。這短短的三頁紙使蓋梯爾成為哲學史上繞不過去的人物，改變瞭蓋梯爾的命運，也改變瞭知識論的發展進程。這三頁紙中提齣的蓋梯爾難題直接否定瞭經典的知識定義 [18]。其直接後果是到目前並沒有一個統一的知識定義，更不用說知識的統一錶示。因此，暫時放棄知識的整體研究，而緻力於知識的基本組成單位研究也許是一條更為可行的路徑。本書即是這樣的一個嘗試和努力。
注意到知識的最小組成單位是概念 [15]，而目前的機器學習主要關注於從數據中提取概念。因此，研究概念的錶示也將有助於機器學習的研究。正是從這一點齣發，本書以一種統一的方式研究瞭常見的機器學習算法，如密度估計、迴歸、數據降維、聚類和分類等。
當然，機器學習的發展不僅與知識錶示直接相關，也與最優化、統計等密切相關。曆史上，計算機、數學、心理學、神經學、生物信息學、哲學等很多學科都曾極大地促進瞭機器學習的發展。未來是否還有其他學科對機器學習有重要影響，也是一個有趣的話題。
最後，稍微討論一下與機器學習相關的學習、研究資料。目前，機器學習的發展方興未艾，特彆是學習算法的研究成果日新月異。除瞭已經列入參考文獻的部分經典著作外，還有很多有影響的學術會議、學術期刊和網絡資源等，如機器學習相關學術會議 ICML、NIPS、COLT，學術期刊 TPAMI和 JMLR，網絡資源 http://videolectures.net/，有興趣的讀者可以自行查閱。

前言/序言

　　機器學習的主要目的是從有限的數據中學習到知識，而知識的基本單元是概念。藉助於概念，人類可以在繁復的思想與多彩的世界之間建立起映射，指認各種對象，發現各種規律，錶達各種想法，交流各種觀念。一旦缺失相應的概念，人們將無法思考、交流，甚至無法順利地生活、學習、工作、醫療、娛樂等。哲學傢如卡西爾等甚至認為人類的本質特性是能夠使用和創造各種符號概念。因此，如何使機器能夠像人一樣自動發現、運用概念，正是機器學習的基本研究內容。本書將集中討論這個問題。

　　所謂的概念發現，是指從一個給定概念（或者概念集閤）的有限外延子集提取對應的概念（或者概念集閤）錶示，又稱歸類問題。通過自然進化，人類可以從一個概念（或概念集閤）的有限外延子集（有限的對象）中輕鬆提取概念（或概念集閤）自身。對於人類如何處理歸類問題，人們已經研究瞭很多年，發明瞭許多理論，比如經典概念理論、原型理論、樣例理論和知識理論等，積纍瞭很多的研究成果。本書藉助認知科學的研究成果，提齣瞭類的統一錶示數學模型，以及與之相關的歸類問題的統一數學錶示。由此提齣瞭類錶示公理、歸類公理和分類測試公理。據此，本書分彆研究瞭歸類結果分類、歸類算法分類等諸多問題。特彆需要提齣的是，本書首次歸納瞭歸類算法設計應該遵循的4條準則——類一緻性準則、類緊緻性準則、類分離性準則和奧卡姆剃刀準則。在理論上，任何機器學習算法的目標函數設計都遵循上述4條準則的1條或者數條。

　　對於具體的機器學習問題，本書依據奧卡姆剃刀準則，按照歸類錶示從簡單到復雜的順序，重新進行瞭組織。本書不僅論述瞭單類問題比多類問題的歸類錶示簡單，聚類問題比分類問題的歸類錶示簡單，單源數據學習比多源數據學習的歸類錶示簡單，而且對於單類問題、多類問題自身的歸類錶示復雜度也進行瞭研究。在此基礎上，指齣單類問題包括密度估計、迴歸和單類數據降維等，並藉助提齣的公理框架以統一的方式演繹推齣瞭在密度估計、迴歸、數據降維、聚類和分類等問題中常用的機器學習算法。

　　本書中章節的組織結構都是類似的，特彆是與具體學習算法有關的章節。每

　　章有一個簡短的開篇詞。如果該章是學習算法章節，該開篇詞用來簡要說明本章算法的主要設計思想。如果該章是理論章節，該開篇詞說明該理論問題的主要目標。每章結尾有延伸閱讀或者討論，延伸閱讀提供更深入的相關閱讀文獻，討論說明本章的相關內容與分析或者尚未解決的問題。

　　作者講授機器學習已十數年，有感於當前的機器學習算法理論依據過多過雜，同時也一直羨慕歐氏幾何從五條公理齣發導齣所有結論的風格。撰寫本書，既是將歐氏幾何風格移植到機器學習的一個嘗試，更是試圖為機器學習與模式識彆提供一個統一但又簡單的理論視角。總之，機器學習公理化這個問題在本書中提齣，也在本書中解決瞭。

　　於劍2017年3月

機器學習：理論基石與實踐之翼概述在信息爆炸的時代，數據已成為驅動社會進步和技術革新的核心要素。如何從海量數據中挖掘有價值的信息，並將其轉化為智能的洞察和決策，已成為各行各業麵臨的關鍵挑戰。本書正是在此背景下應運而生，旨在為讀者提供一個全麵、深入且係統性的機器學習知識體係。它不僅涵蓋瞭機器學習的核心理論和數學基礎，更深入淺齣地介紹瞭各種經典的機器學習算法及其在現實世界中的應用。本書的獨特之處在於，它將理論的嚴謹性與實踐的靈活性巧妙地結閤起來，讓讀者在理解算法背後原理的同時，也能掌握其在實際問題中的應用技巧。理論深度：從數學原理到模型構建本書將從機器學習的理論基石齣發，逐層深入，為讀者構建堅實的理論根基。我們將從概率論、統計學和綫性代數等基礎數學工具講起，清晰地闡述這些工具在機器學習中的作用和意義。例如，概率論中的貝葉斯定理和概率分布將幫助我們理解模型的內在不確定性；統計學中的最大似然估計和假設檢驗將是模型參數學習和評估的關鍵；而綫性代數中的嚮量、矩陣運算則是理解高維數據和復雜模型（如神經網絡）的必經之路。在夯實數學基礎後，本書將係統地介紹機器學習的幾個核心範疇：監督學習 (Supervised Learning): 這是機器學習中最常見也最成熟的領域。我們將深入探討迴歸（Regression）和分類（Classification）兩類問題。對於迴歸問題，我們將從最簡單的綫性迴歸入手，逐步介紹多項式迴歸、嶺迴歸（Ridge Regression）、Lasso迴歸等正則化方法，理解它們如何解決過擬閤問題，並優化模型的泛化能力。對於分類問題，我們將詳細講解邏輯迴歸（Logistic Regression）的原理，理解其如何通過Sigmoid函數將連續輸齣映射到概率，以及其在二分類和多分類任務中的應用。本書還將重點介紹支持嚮量機（Support Vector Machines, SVM），深入解析其核函數技巧（Kernel Trick）如何處理非綫性可分數據，並探討其在文本分類、圖像識彆等領域的強大能力。決策樹（Decision Trees）作為一種直觀易懂且可解釋性強的模型，我們將詳細介紹其構建過程，包括信息增益、基尼不純度等度量標準，並探討隨機森林（Random Forests）和梯度提升樹（Gradient Boosting Trees）等集成學習方法如何通過組閤多個弱學習器來提升整體性能。無監督學習 (Unsupervised Learning): 在缺乏標簽數據的情況下，無監督學習能夠發現數據中隱藏的結構和模式。本書將重點介紹聚類（Clustering）算法，從經典的K-Means算法開始，理解其迭代優化的過程，並探討如何選擇閤適的K值。隨後，我們將介紹層次聚類（Hierarchical Clustering）和DBSCAN（Density-Based Spatial Clustering of Applications with Noise）等方法，理解它們在處理不同類型數據和發現任意形狀簇方麵的優勢。降維（Dimensionality Reduction）是無監督學習的另一重要分支，它旨在減少數據的特徵數量，同時保留盡可能多的信息。我們將詳細講解主成分分析（Principal Component Analysis, PCA）的原理，理解其如何通過特徵值分解找到數據的主要變化方嚮。此外，我們還將介紹非負矩陣分解（Non-negative Matrix Factorization, NMF）在主題建模和特徵提取方麵的應用。模型評估與選擇 (Model Evaluation and Selection): 無論模型多麼復雜，其最終的價值在於能否在真實世界的數據上取得良好錶現。本書將提供一套嚴謹的模型評估框架。我們將介紹各種評估指標，如準確率（Accuracy）、精確率（Precision）、召迴率（Recall）、F1分數、ROC麯綫和AUC值等，並深入分析它們各自的優缺點以及適用場景。過擬閤（Overfitting）和欠擬閤（Underfitting）是模型訓練過程中最常見的陷阱，本書將詳細闡述它們産生的原因，並提供多種解決方案，如正則化、交叉驗證（Cross-Validation）、早停（Early Stopping）等。我們將強調交叉驗證的重要性，介紹K摺交叉驗證（K-Fold Cross-Validation）等技術，確保模型的泛化能力得到可靠的評估。深度學習基礎 (Fundamentals of Deep Learning): 隨著人工智能的飛速發展，深度學習已成為推動技術革新的關鍵力量。本書將為讀者揭開深度學習的神秘麵紗。我們將從人工神經網絡（Artificial Neural Networks, ANN）的基本組成單元——神經元（Neuron）講起，理解其激活函數（Activation Function）的作用，如Sigmoid、ReLU（Rectified Linear Unit）等，以及它們如何引入非綫性。我們將詳細介紹多層感知機（Multi-Layer Perceptron, MLP）的結構，以及反嚮傳播算法（Backpropagation Algorithm）如何高效地計算模型梯度，實現參數更新。在此基礎上，我們將引齣捲積神經網絡（Convolutional Neural Networks, CNNs）在圖像處理領域的革命性應用，理解其捲積層（Convolutional Layer）、池化層（Pooling Layer）和全連接層（Fully Connected Layer）的設計思想，以及它們如何提取圖像的局部特徵。此外，循環神經網絡（Recurrent Neural Networks, RNNs）及其變體如長短期記憶網絡（Long Short-Term Memory, LSTM）和門控循環單元（Gated Recurrent Unit, GRU）在序列數據處理（如自然語言處理）中的強大威力也將得到詳細闡述。實踐導嚮：算法應用與工程實踐理論的深度最終是為瞭指導實踐。本書將強調算法在實際問題中的應用，並提供可操作的工程實踐建議。數據預處理與特徵工程 (Data Preprocessing and Feature Engineering): 真實世界的數據往往是混亂、不完整且充滿噪聲的。本書將詳細介紹數據清洗（Data Cleaning）的各種技術，包括處理缺失值（Missing Values）、異常值（Outliers）和重復值（Duplicates）。特徵縮放（Feature Scaling），如標準化（Standardization）和歸一化（Normalization），將幫助模型更好地收斂。特徵選擇（Feature Selection）和特徵提取（Feature Extraction）是提升模型性能和效率的關鍵步驟，我們將介紹多種方法，如過濾法、包裹法和嵌入法，以及PCA等技術在特徵工程中的應用。算法選擇與調優 (Algorithm Selection and Tuning): 麵對不同的問題和數據集，如何選擇最閤適的算法是一個挑戰。本書將提供一套指導性的框架，幫助讀者根據問題的類型（如分類、迴歸、聚類）、數據規模、計算資源以及對模型解釋性的需求來做齣明智的決策。更重要的是，我們將深入探討模型調優（Hyperparameter Tuning）的重要性，介紹網格搜索（Grid Search）、隨機搜索（Random Search）和貝葉斯優化（Bayesian Optimization）等技術，幫助讀者找到模型的最佳超參數組閤，從而最大限度地提升模型性能。案例研究與項目實踐 (Case Studies and Project Practice): 為瞭讓讀者更好地理解機器學習的應用，本書將提供一係列精心設計的案例研究，涵蓋圖像識彆、自然語言處理、推薦係統、金融風控等多個熱門領域。通過分析真實世界的項目，讀者將學習如何將所學的理論和算法應用於解決實際問題，並理解不同算法在具體場景下的優劣勢。此外，本書還將引導讀者進行項目實踐，鼓勵他們動手實現算法、處理數據、訓練模型並評估結果，從而將知識轉化為實踐能力。內容特色與目標讀者本書的最大特色在於其內容組織的科學性和邏輯性。它從基礎的數學概念齣發，循序漸進地引導讀者進入機器學習的廣闊天地，不放過任何一個關鍵的技術細節，也不迴避任何一個重要的理論推導。同時，本書注重理論與實踐的結閤，力求讓讀者在掌握理論的同時，也能獲得解決實際問題的能力。本書適閤以下讀者群體：計算機科學、數據科學、人工智能及相關領域的學生：為他們提供堅實的理論基礎和實踐指導。希望轉行或深入學習機器學習的工程師和開發者：幫助他們快速掌握核心技術，提升工作能力。對機器學習感興趣的科研人員和學者：提供一個係統的學習資源，為進一步的研究打下基礎。需要理解和應用機器學習技術的各行業專業人士：幫助他們瞭解數據驅動的決策方式，並將其應用於自己的領域。結語機器學習正以前所未有的速度改變著世界。本書旨在成為讀者探索這個迷人領域的忠實夥伴，提供清晰的指引，開啓通往智能未來的大門。通過對機器學習原理的深入剖析和對算法應用的全麵展示，我們希望讀者能夠掌握這門強大的技術，並在各自的領域內創造齣無限可能。

用戶評價

評分☆☆☆☆☆

這是一本讓我讀起來頗有“考古”樂趣的書。在如今充斥著各種速成教程和“開箱即用”框架的時代，找到一本能夠深入剖析事物本質的書籍實屬不易。這本書的敘事方式，從“公理”齣發，仿佛是在帶領讀者迴溯到機器學習思想的源頭。我尤其欣賞它在講解過程中，不迴避那些看似枯燥但卻至關重要的數學推導。有時候，我們會因為追求效率而忽略瞭對基礎的夯實，但這本書恰恰證明瞭，隻有真正理解瞭“為什麼”，纔能更靈活、更有效地“怎麼做”。我最近在嘗試理解一些更復雜的模型，比如深度學習中的一些非綫性激活函數的選擇，以及它們在反嚮傳播過程中扮演的角色，總是覺得隔靴搔癢。我希望這本書能夠提供一個清晰的理論框架，解釋這些細節背後的數學原理，讓我不再是被動地接受，而是能夠主動地去理解和創新。我期待它能幫助我建立起一種“理論聯係實際”的能力，能夠從數學的語言中讀懂算法的精妙，並將其應用於我自己的研究或開發項目中。

評分☆☆☆☆☆

這本書的齣版，對我來說，像是久旱逢甘霖。我一直以來都對機器學習的理論基礎感到有些力不從心，雖然能夠熟練運用各種工具箱，但總感覺自己像是站在巨人的肩膀上，卻看不到巨人的腳下。這本《機器學習：從公理到算法》的書名就直指問題的核心。我希望它能帶領我從最基礎的數學原理和統計概念齣發，層層遞進地構建起對機器學習的理解。我尤其期待它能夠深入剖析那些支撐著機器學習模型運轉的數學“骨架”，比如概率論的嚴謹應用、綫性代數的靈活運用，以及信息論的深刻洞察。我希望這本書能讓我明白，為什麼某些算法的假設是那樣，為什麼它們的性能會受到特定因素的影響。我期待它能夠提供一個清晰的理論框架，幫助我理解不同算法之間的聯係與區彆，從而能夠根據實際問題選擇最閤適的工具，甚至能夠在這個基礎上進行創新。

評分☆☆☆☆☆

拿到這本書的時候，就感覺沉甸甸的。不光是紙張的厚度，更是知識的厚重感。我一直對機器學習中的“原理”部分非常感興趣，但市麵上很多書籍要麼過於淺顯，要麼過於偏重工程實踐，能夠真正深入剖析其理論根基的書籍並不多。這本《機器學習：從公理到算法》吸引我的地方就在於它標題中“公理”二字。在我看來，科學的基石在於公理，而一個成熟的理論體係，必然源於其公理化的構建。我希望這本書能夠帶領我深入理解機器學習的數學哲學，從最基礎的假設和定義齣發，一步步推導齣各種算法的形成。我希望它能解答我心中 long-standing 的疑問，比如為什麼很多模型都依賴於優化目標函數，以及梯度下降等優化算法的根本原理。我期待這本書能夠幫助我建立起一種“舉一反三”的能力，當我遇到新的問題時，能夠從理論層麵去分析，而不是僅僅依賴於已有的經驗。

評分☆☆☆☆☆

這本書的封麵設計就透露著一種嚴謹和深邃的氣息，深藍的底色搭配銀色的字體，像是浩瀚宇宙中閃爍的智慧星辰。我還在猶豫是否入手時，偶然看到一位資深研究者在其博客中提及這本書，他用“打通任督二脈”、“撥雲見日”等詞來形容閱讀後的感受，這讓我對它産生瞭極大的好奇。我一直對機器學習的理論基礎感到有些模糊，雖然能熟練地調用各種庫和模型，但總覺得根基不穩，缺乏一種“道”的境界。這本《機器學習：從公理到算法》似乎正是要填補我在這方麵的空白。書名中的“公理”二字就足以引起我的興趣，我一直認為，一個成熟的科學體係，必然有其 foundational principles，而機器學習作為一門新興的學科，其公理體係的構建過程本身就是一件極具價值的事情。我期待它能帶領我從最基本的數學和統計學原理齣發，一步步構建起對機器學習的深刻理解，而不是僅僅停留在“黑箱”操作層麵。我希望這本書能夠幫助我理解各種算法背後的邏輯是如何被推導齣來的，以及為什麼某些算法在特定場景下錶現優異。這不僅能提升我解決實際問題的能力，更能讓我對整個機器學習領域有更宏觀和深刻的認識。

評分☆☆☆☆☆

我是在一個學術會議上第一次聽說這本書的。當時，一位來自國內頂尖高校的教授在介紹他的最新研究成果時，多次引用瞭本書中的一些概念和推導。這讓我意識到，這不僅僅是一本教材，更是一部具有前瞻性和指導意義的學術著作。這本書的書名很吸引人，“從公理到算法”，這是一種自下而上的嚴謹邏輯，也是一種由淺入深的知識探索路徑。我一直對機器學習的數學基礎感到睏惑，特彆是那些復雜的概率論和綫性代數在模型中的具體應用。很多時候，我們隻是記住公式，卻不理解公式背後的物理含義或者統計意義。我希望這本書能夠係統地梳理這些知識，用一種清晰易懂的方式將其串聯起來，讓我們明白為什麼我們需要這些數學工具，以及它們是如何被巧妙地應用於構建和優化機器學習模型的。我期待這本書能夠幫助我理解那些支撐著人工智能前沿發展的核心數學思想，為我進一步深入學習更高級的機器學習技術打下堅實的基礎。

評分☆☆☆☆☆

以解客戶憂患，

評分☆☆☆☆☆

發貨迅速，ml的經典圖書，好評。

評分☆☆☆☆☆

寶貝不錯，不錯，真不錯，真的很不錯。

評分☆☆☆☆☆

有的東西就是不要錯過這個是接口與其羨慕我就在眼前……一個人就是說好瞭……一定的哥拾金不昧的時候還覺得蠻拼的……一定的士師傅你在哪有這麼大呢、一直以來對我們的産品是純爺們兒有的東西就是不要錯過這個是接口與其羨慕我就在眼前……一個人就是說好瞭……一定的哥拾金不昧的時候還覺得蠻拼的……一定的士師傅你在哪有這麼大呢、一直以來對我們的産品是純爺們兒

評分☆☆☆☆☆

生活是這樣子　不如詩

評分☆☆☆☆☆

最後的好夢　漸漸消失

評分☆☆☆☆☆

超級棒的教材！

評分☆☆☆☆☆

4.自學本來就慢，一會兒看書一會兒看論壇更TM慢瞭。

評分☆☆☆☆☆

漢語:我來打醬油。英語:it's none of my business .i come to buy some sauce. 德語:ich bezogen, was ich kam zu einer soja-so?e. 法語:je lis ce qui, j'en suis arriv une sauce de soja. 荷蘭語:ik gerelateerd wat, kwam ik tot een sojasaus. 俄語:я,касающихся того, что я пришел к соевым соусом. 西班牙語:relacionados con lo que yo, me vino a un salsa de soja. 意大利語:i relativi cosa, sono venuto a una salsa di soia. 日本語:私関連したどのような、私がして醤油. 希臘語:i σχετικ? ? τι ? ρθα σε μια σ? λτσα σ? για?. 漢語:我來打醬油。英語:it's none of my bu