Toby Segaran是Genstruct公司的軟件開發主管,這傢公司涉足計算生物領域,他本人的職責是設計算法,並利用數據挖掘技術來輔助瞭解藥品機理。Toby Segaran還為其他幾傢公司和數個開源項目服務,幫助它們從收集到的數據當中分析並發掘價值。除此以外,Toby Segaran還建立瞭幾個免費的網站應用,包括流行的tasktoy和Lazybase。他非常喜歡滑雪與品酒,其博客地址是blog.kiwitobes.com,現居於舊金山。
前言
第1章 集體智慧導言
什麼是集體智慧
什麼是機器學習
機器學習的局限
真實生活中的例子
學習型算法的其他用途
第2章 提供推薦
協作型過濾
搜集偏好
尋找相近的用戶
推薦物品
匹配商品
構建一個基於del.icio.us的鏈接推薦係統
基於物品的過濾
使用MovieLens數據集
基於用戶進行過濾還是基於物品進行過濾
練習
第3章 發現群組
監督學習和無監督學習
單詞嚮量
分級聚類
繪製樹狀圖
列聚類
K-均值聚類
針對偏好的聚類
以二維形式展現數據
有關聚類的其他事宜
練習
第4章 搜索與排名
搜索引擎的組成
一個簡單的爬蟲程序
建立索引
查詢
基於內容的排名
利用外部迴指鏈接
從點擊行為中學習
練習
第5章 優化
組團旅遊
描述題解
成本函數
隨機搜索
爬山法
模擬退火算法
遺傳算法
真實的航班搜索
涉及偏好的優化
網絡可視化
其他可能的應用場閤
練習
第6章 文檔過濾
過濾垃圾信息
文檔和單詞
對分類器進行訓練
計算概率
樸素分類器
費捨爾方法
將經過訓練的分類器持久化
過濾博客訂閱源
對特徵檢測的改進
使用Akismet
替代方法
練習
第7章 決策樹建模
預測注冊用戶
引入決策樹
對樹進行訓練
選擇最閤適的拆分方案
以遞歸方式構造樹
決策樹的顯示
對新的觀測數據進行分類
決策樹的剪枝
處理缺失數據
處理數值型結果
對住房價格進行建模
對“熱度”評價進行建模
什麼時候使用決策樹
練習
第8章 構建價格模型
構造一個樣本數據集
k-最近鄰算法
為近鄰分配權重
交叉驗證
不同類型的變量
對縮放結果進行優化
不對稱分布
使用真實數據——eBay API
何時使用k-最近鄰算法
練習
第9章 高階分類:核方法與SVM
婚介數據集
數據中的難點
基本的綫性分類
分類特徵
對數據進行縮放處理
理解核方法
支持嚮量機
使用LIBSVM
基於Facebook的匹配
練習
第10章 尋找獨立特徵
搜集一組新聞
先前的方法
非負矩陣因式分解
結果呈現
利用股票市場的數據
練習
第11章 智能進化
什麼是遺傳編程
將程序以樹形方式錶示
構造初始種群
測試題解
對程序進行變異
交叉
構築環境
一個簡單的遊戲
更多可能性
練習
第12章 算法總結
貝葉斯分類器
決策樹分類器
神經網絡
支持嚮量機
k-最近鄰
聚類
多維縮放
非負矩陣因式分解
優化
附錄A:第三方函數庫
附錄B:數學公式
索引
· · · · · · (
收起)
本書以機器學習與計算統計為主題背景,專門講述如何挖掘和分析Web上的數據和資源,如何分析用戶體驗、市場營銷、個人品味等諸多信息,並得齣有用的結論,通過復雜的算法來從Web網站獲取、收集並分析用戶的數據和反饋信息,以便創造新的用戶價值和商業價值。全書內容翔實,包括協作過濾技術(實現關聯産品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜索引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息並進行分析統計得齣結論的優化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智能應用等。
本書是Web開發者、架構師、應用工程師等的絕佳選擇。
集體智慧編程 下載 mobi epub pdf txt 電子書
評分
☆☆☆☆☆
評分
☆☆☆☆☆
評分
☆☆☆☆☆
##為毛叫集體?這個詞兒在漢語裏就是上世紀那場浩劫,還有對個性人性無情的扼殺,讓我心有餘悸
評分
☆☆☆☆☆
評分
☆☆☆☆☆
##為毛叫集體?這個詞兒在漢語裏就是上世紀那場浩劫,還有對個性人性無情的扼殺,讓我心有餘悸
評分
☆☆☆☆☆
##指條明路給我
評分
☆☆☆☆☆
##可能不是什麼最新的研究熱點 不過就讀完第一章之後來看,基本上驗證瞭我之前對於協同過濾方麵的知識,並且感覺可以作為後續研究的一個指導和激勵。 看到後麵的章節內容,支持嚮量機,神經網絡等之前在工程上用的少之又少的東西都能有它們的用武之地,讓人相當之興奮。 其實目前...
評分
☆☆☆☆☆
##很實用,內容有些過時
評分
☆☆☆☆☆
##這是一本很適閤對各種機器學習知識進行瞭解的入門讀物,涵蓋瞭較為全麵的機器學習方法。全書翻譯得不錯,但是到處都是須要,真是需要,須要,傻傻分不清楚啊,看著有點彆扭的感覺,不過沒辦法,還是得感謝譯者,這隻能怪自己的英文水平太低咯~