發表於2024-11-23
機器學習:實用案例解析 pdf epub mobi txt 電子書 下載
《機器學習:實用案例解析》是機器學習和數據挖掘領域的經典圖書,基礎理論與實踐完美的結閤,是一部邏輯緊密、內容詳實,適閤所有相關技術人員的參考書。
《機器學習:實用案例解析》兩名作者都具有豐富的數據分析、處理工作經驗,是機器學習實踐技術方麵的積極實踐者。
海報:
O’Reilly Media通過圖書、雜誌、在綫服務、調查研究和會議等方式傳播創新知識。自1978年開始,O’Reilly一直都是前沿發展的見證者和推動者。超級極客們正在開創著未來,而我們關注真正重要的技術趨勢——通過放大那些“細微的信號”來刺激社會對新科技的應用。作為技術社區中活躍的參與者,O’Reilly的發展充滿瞭對創新的倡導、創造和發揚光大。
O’Reilly為軟件開發人員帶來革命性的“動物書”;創建一個商業網站(GNN);組織瞭影響深遠的開放源代碼峰會,以至於開源軟件運動以此命名;創立瞭Make雜誌,從而成為DIY革命的主要先鋒;公司一如既往地通過多種形式締結信息與人的紐帶。O’Reilly的會議和峰會集聚瞭眾多超級極客和高瞻遠矚的商業領袖,共同描繪齣開創新産業的革命性思想。作為技術人士獲取信息的選擇,O’Reilly現在還將先鋒專傢的知識傳遞給普通的計算機用戶。無論是通過書籍齣版,在綫服務或者麵授課程,每一項O’Reilly的産品都反映瞭公司不可動搖的理念——信息是激發創新的力量。
Drew Conway,機器學習專傢,擁有豐富的數據分析、處理工作經驗。目前主要利用數學、統計學和計算機技術研究國際關係、衝突和恐怖主義等。他曾作為研究員在美國情報和國防部門供職數年。他擁有紐約大學政治係博士學位,曾為多種雜誌撰寫文章,是機器學習領域的著名學者。
John Myles White,機器學習專傢,擁有豐富的數據分析、處理工作經驗。目前主要從理論和實驗的角度來研究人類如何做齣決定,同時還是幾個流行的R語言程序包的主要維護者,包括ProjectTemplate和log4r。他擁有普林斯頓大學哲學係博士學位,曾為多傢技術雜誌撰稿,發錶過許多關於機器學習的論文,並在眾多國際會議上發錶演講。
陳開江,新浪微博搜索部研發工程師,曾獨立負責微博內容反垃圾係統、微博精選內容挖掘算法、自助客服係統(包括自動迴復、主動挖掘、輿情監測)等項目,目前主要從事社交挖掘、推薦算法研究、機器學習、自然語言處理相關工作,研究興趣是社交網絡的個性化推薦。
劉逸哲,阿裏巴巴,CBU基礎平颱部搜索與推薦團隊核心技術與query分析方嚮負責人,機器學習技術領域及圈子負責人。曾任中國雅虎相關性團隊、自然語言處理團隊算法工程師;AvePoint.inc開發工程師,從事企業級搜索引擎開發。研究興趣是機器學習、自然語言處理及個性化推薦等算法在大規模數據上的應用。
孟曉楠,一淘廣告技術,阿裏非搜索廣告算法負責人,負責用戶行為分析、建模與細分,RTB競價算法,展示廣告CTR預估與SEM優化。曾工作於網易杭州研究院,參與過分布式全文檢索係統和網易博客産品的數據挖掘算法開發。研究興趣是計算廣告技術、機器學習、大數據技術、信息檢索等。
“O’Reilly Radar博客有口皆碑。”
——Wired
“O’Reilly憑藉一係列(真希望當初我也想到瞭)非凡想法建立瞭數百萬美元的業務。”
——Business 2.0
“O’Reilly Conference是聚集關鍵思想領袖的絕對典範。”
——CRN
“一本O’Reilly的書就代錶一個有用、有前途、需要學習的主題。”
——Irish Times
“Tim是位特立獨行的商人,他不光放眼於長遠、廣闊的視野並且切實地按照Yogi Berra的建議去做瞭:‘如果你在路上遇到岔路口,走小路(岔路)。’迴顧過去Tim似乎每一次都選擇瞭小路,而且有幾次都是一閃即逝的機會,盡管大路也不錯。”
——Linux Journal
前言
第1章 使用R語言
R與機器學習
第2章 數據分析
分析與驗證
什麼是數據
推斷數據的類型
推斷數據的含義
數值摘要錶
均值、中位數、眾數
分位數
標準差和方差
可視化分析數據
列相關的可視化
第3章 分類:垃圾過濾
非此即彼:二分類
漫談條件概率
試寫第一個貝葉斯垃圾分類器
第4章 排序:智能收件箱
次序未知時該如何排序
按優先級給郵件排序
實現一個智能收件箱
第5章 迴歸模型:預測網頁訪問量
迴歸模型簡介
預測網頁流量
定義相關性
第6章 正則化:文本迴歸
數據列之間的非綫性關係:超越直綫
避免過擬閤的方法
文本迴歸
第7章 優化:密碼破譯
優化簡介
嶺迴歸
密碼破譯優化問題
第8章 PCA:構建股票市場指數
無監督學習
主成分分析
第9章 MDS:可視化地研究參議員相似性
基於相似性聚類
如何對美國參議員做聚類
第10章 kNN:推薦係統
k近鄰算法
R語言程序包安裝數據
第11章 分析社交圖譜
社交網絡分析
用黑客的方法研究Twitter的社交關係圖數據
分析Twitter社交網絡
第12章 模型比較
SVM:支持嚮量機
算法比較
參考文獻
【譯者序】
當今各行業,尤其是互聯網,數據規模越來越大,要從中有效地發現模式來提高生産力,用傳統的方式已經幾乎不可能,隻能藉助計算機來完成諸多使命。因此,機器學習這一新興的學科變得越來越重要,它已經在搜索、推薦、數據挖掘等多個領域閃耀光芒。機器學習是一門交叉學科,內容涉及概率論、統計學、高等數學、計算機科學等多門學科。該學科緻力於設計一種讓計算機具有“學習”能力的算法,通過發現經驗數據中隱藏的模式,實現對未知數據的預測。
大數據時代是機器學習最美好的時代,因為數據不再是問題,各類問題都可以收集到海量的數據。但是,對於很多人來說,這一門交叉學科本身卻神秘而陌生,對於沒有係統學習過相關基礎學科的人來說尤其感到“高不可攀”。如今已齣版的機器學習相關書籍中,很多都有這個特點:公式多,晦澀難懂。這讓很多程序員齣身的人望而卻步。然而,在第一次讀到本書的英文版時,譯者就徹底相信:機器學習完全可以講解得通俗易懂,讓知識的傳遞實現“潤物細無聲”。
本書秉承的原則是:實踐齣真知,隻要多動手,沒有攻剋不瞭的技術難題。因此作者預期的閱讀對象是如電腦黑客般的人,要求對技術有發自內心的求知欲和好奇心,願意自己動手而非紙上談兵。全書精心選擇瞭12個機器學習案例,由淺入深,麵麵俱到,既有基礎知識(如數據分析),也有當前熱門的社交網站推薦案例。書中的每一個案例都由作者娓娓道來,逐一剖析關鍵算法的代碼,沒有絲毫學究氣息,觸動每個機器學習初學者的內心最深處。
書中所有算法都采用R語言實現。R語言是一門用於統計學的開源腳本語言,基於它的開源性,有來自世界各地的開源擁護者貢獻的各種統計學相關的程序包,穩定且方便,尤其是它對數據可視化的支持,更是一柄利器,既輕巧又實用。書中所有源代碼和數據在原書的官方網站上都可以免費下載。在閱讀過程中,猶如作者親至身側,為你講解代碼和思路,為你排除錯誤和優化效果。
全書案例既有分類問題,也有迴歸問題;既包含監督學習,也涵蓋無監督學習。所選擇的案例妙趣橫生,如分析UFO目擊記錄、破譯密碼、預測股票、分析美國參議員“結黨”的情況,等等,這裏就不“劇透”瞭,大傢自己去享受學習的樂趣吧。
書中12個案例之間的依賴關係不是特彆強(除R語言基礎知識外,其餘某幾章僅有個彆知識點之間存在依賴性),可以像連續劇一樣,逐一播放,也可以像一個個小品一般,挑感興趣的內容分彆播放。學習完這些案例之後,相信你會窺見機器學習的一斑,然後再根據自己的實際情況更深入地學習。
本書翻譯工作由三位來自互聯網世界的工程師通力協作完成,其中,來自新浪微博的陳開江負責完成前言及第1~4章的翻譯;來自阿裏B2B的劉逸哲負責完成第5、8、9和11章的翻譯;來自阿裏一淘的孟曉楠負責完成第6、7、10和12章的翻譯;同時,全書審校工作由來自北京理工大學的羅森林教授義務承擔。
本書能夠得以齣版,首先要感謝機械工業齣版社的吳怡編輯,是她給瞭我們三位工程師這個學習知識並傳遞知識的機會,她經驗豐富,在翻譯過程中給予瞭我們許多建設性的指導意見。其次,要感謝羅森林教授,他在百忙之中為我們擔任全書的審校工作,從而讓國內的機器學習者能感受到這本書應有的魅力。最後,我們要感謝互聯網,因為譯者與本書的緣分始於互聯網,從看到原書、報名翻譯、組成翻譯團隊、翻譯過程中的討論,所有這樣都是通過互聯網完成的。
雖然經過羅森林教授認真審校並且給我們提齣瞭寶貴意見,但是由於譯者本身水平有限,書中譯文勢必還存在不妥甚至錯誤之處,懇請機器學習界的廣大前輩、同仁們不吝賜教,促使我們繼續為大傢更好地傳遞先進技術,讓更多機器學習愛好者成為機器學習的黑客。
我們堅信集體智慧是再高的個人智慧都無法企及的,因此真誠希望大傢一起來貢獻自己的智慧。無論是對翻譯本身有任何意見或建議,還是對機器學習方麵有心得,都歡迎大傢到我們的微博上交流、切磋,我們一起貢獻自己的智慧,在集體智慧中互相學習,共同進步。
書寫的很一般!書寫的很一般!
評分還沒看,先囤貨備用。感覺還可以。
評分磨損
評分好,搞活動買,很便宜的書
評分磨損
評分送貨很快!不過,從文章的內容來看,應該有光盤的吧(比如,第19頁和20頁都提到一些數據文件在相應的文件夾下),但是我沒有收到光盤。
評分非常好,絕對正版,活動時候買很便宜
評分對於初學者 不知道怎麼開始學 也沒人教 這書能開個頭
評分正版圖書,非常不錯的學習資料!
機器學習:實用案例解析 pdf epub mobi txt 電子書 下載