內容簡介
本書遵循結構化和綜閤性的方法,介紹瞭文本和語言語法、結構和語義的基礎概念和高級概念。從自然語言和Python的基礎開始,進而學習先進的分析理念和機器學習概念。全麵提供瞭自然語言處理(NLP)和文本分析的主要概念和技術。包含瞭豐富的真實案例實現技術,例如構建分類新聞文章的文本分類係統,使用主題建模和文本摘要分析app或遊戲評論,進行熱門電影概要的聚類分析和電影評論的情感分析。介紹瞭基於Python和流行NLP開源庫和文本分析實用工具,如自然語言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern。
目錄
目錄
譯者序
前言
第1章自然語言基礎
1.1自然語言
1.1.1什麼是自然語言
1.1.2語言哲學
1.1.3語言習得和用法
1.2語言學
1.3語言句法和結構
1.3.1詞
1.3.2短語
1.3.3從句
1.3.4語法
1.3.5語序類型學
1.4語言語義
1.4.1詞匯語義關係
1.4.2語義網絡和模型
1.4.3語義錶示
1.5文本語料庫
1.5.1文本語料庫標注及使用
1.5.2熱門的語料庫
1.5.3訪問文本語料庫
1.6自然語言處理
1.6.1機器翻譯
1.6.2語音識彆係統
1.6.3問答係統
1.6.4語境識彆與消解
1.6.5文本摘要
1.6.6文本分類
1.7文本分析
1.8小結
第2章Python語言迴顧
2.1瞭解Python
2.1.1Python之禪
2.1.2應用:何時使用Python
2.1.3缺點:何時不用Python
2.1.4Python實現和版本
2.2安裝和設置
2.2.1用哪個Python版本
2.2.2用哪個操作係統
2.2.3集成開發環境
2.2.4環境設置
2.2.5虛擬環境
2.3Python句法和結構
2.4數據結構和類型
2.4.1數值類型
2.4.2字符串
2.4.3列錶
2.4.4集閤
2.4.5字典
2.4.6元組
2.4.7文件
2.4.8雜項
2.5控製代碼流
2.5.1條件結構
2.5.2循環結構
2.5.3處理異常
2.6函數編程
2.6.1函數
2.6.2遞歸函數
2.6.3匿名函數
2.6.4迭代器
2.6.5分析器
2.6.6生成器
2.6.7itertools和functools模塊
2.7類
2.8使用文本
2.8.1字符串文字
2.8.2字符串操作和方法
2.9文本分析框架
2.10小結
第3章處理和理解文本
3.1文本切分
3.1.1句子切分
3.1.2詞語切分
3.2文本規範化
3.2.1文本清洗
3.2.2文本切分
3.2.3刪除特殊字符
3.2.4擴展縮寫詞
3.2.5大小寫轉換
3.2.6刪除停用詞
3.2.7詞語校正
3.2.8詞乾提取
3.2.9詞形還原
3.3理解文本句法和結構
3.3.1安裝必要的依賴項
3.3.2機器學習重要概念
3.3.3詞性標注
3.3.4淺層分析
3.3.5基於依存關係的分析
3.3.6基於成分結構的分析
3.4小結
第4章文本分類
4.1什麼是文本分類
4.2自動文本分類
4.3文本分類的藍圖
4.4文本規範化處理
4.5特徵提取
4.5.1詞袋模型
4.5.2TF�睮DF模型
4.5.3高級詞嚮量模型
4.6分類算法
4.6.1多項式樸素貝葉斯
4.6.2支持嚮量機
4.7評估分類模型
4.8建立一個多類分類係統
4.9應用
4.10小結
第5章文本摘要
5.1文本摘要和信息提取
5.2重要概念
5.2.1文檔
5.2.2文本規範化
5.2.3特徵提取
5.2.4特徵矩陣
5.2.5奇異值分解
5.3文本規範化
5.4特徵提取
5.5關鍵短語提取
5.5.1搭配
5.5.2基於權重標簽的短語提取
5.6主題建模
5.6.1隱含語義索引
5.6.2隱含Dirichlet分布
5.6.3非負矩陣分解
5.6.4從産品評論中提取主題
5.7自動文檔摘要
5.7.1隱含語義分析
5.7.2TextRank算法
5.7.3生成産品說明摘要
5.8小結
第6章文本相似度和聚類
6.1重要概念
6.1.1信息檢索
6.1.2特徵工程
6.1.3相似度測量
6.1.4無監督的機器學習算法
6.2文本規範化
6.3特徵提取
6.4文本相似度
6.5詞項相似度分析
6.5.1漢明距離
6.5.2曼哈頓距離
6.5.3歐幾裏得距離
6.5.4萊文斯坦編輯距離
6.5.5餘弦距離和相似度
6.6文檔相似度分析
6.6.1餘弦相似度
6.6.2海靈格-巴塔恰亞距離
6.6.3Okapi BM25排名
6.7文檔聚類
6.8最佳影片聚類分析
6.8.1k�瞞eans聚類
6.8.2近鄰傳播聚類
6.8.3沃德凝聚層次聚類
6.9小結
第7章語義與情感分析
7.1語義分析
7.2探索WordNet
7.2.1理解同義詞集
7.2.2分析詞匯的語義關係
7.3詞義消歧
7.4命名實體識彆
7.5分析語義錶徵
7.5.1命題邏輯
7.5.2一階邏輯
7.6情感分析
7.7IMDb電影評論的情感分析
7.7.1安裝依賴程序包
7.7.2準備數據集
7.7.3有監督的機器學習技術
7.7.4無監督的詞典技術
7.7.5模型性能比較
7.8小結
前言/序言
前言
從高中開始接觸數學和統計學以來,我就一直對數字著迷。分析學(analytics)、數據科學以及最近的文本分析技術均齣現較晚,大概是在幾年前,當時關於大數據(big data)和數據分析的炒作越來越猛烈,甚至有些瘋狂。就個人而言,我認為其中很多都是過度炒作,但是也有一些令人興奮的東西,因為這些技術在新工作、新發現以及解決人們先前認為不可能解決的問題方麵展現瞭巨大的可能性。
自然語言處理(Natural Language Processing,NLP)一直深深吸引著我,因為人腦科學和人類認知能力確實令人著迷。如果嘗試在機器中重塑這種傳遞信息、復雜思維和情緒的能力,那一定是令人驚喜的。當然,盡管我們在認知計算(cognitive computing)和人工智能(Artificial Intelligence,AI)方麵的發展突飛猛進,但現在尚且無法實現這一點。僅通過圖靈測試可能是不夠的,機器真正能復製人的方方麵麵嗎?
當今,對於NLP和文本分析應用,迫切需求從非結構化、原始文本數據中提取有用信息和可行見解的能力。到目前為止,我一直在努力解決各種問題,麵臨諸多挑戰,並隨著時間的推移吸取瞭各種各樣的經驗教訓。本書涵蓋瞭我在文本分析領域學到的大部分知識,僅僅從一堆文本文檔中建立一個花哨的詞雲是不夠的。
在學習文本分析方麵,最大的問題或許不是信息缺乏,而是信息過多,通常這稱為信息過載(information overload)。海量的資源、文檔、論文、書籍和期刊包含瞭大量的理論資料、概念、技術和算法,它們常常使該領域的新手不知所措。解決問題的正確技術是什麼?文本摘要如何真正有效?哪些纔是解決多類文本分類的框架?通過將數學和理論概念與現實用例的Python實現相結閤,本書嘗試解決這個問題,並幫助讀者避免迄今為止我所遇到的一些急迫問題。
本書采用瞭全麵的和結構化的介紹方法。首先,它在前幾章中介紹瞭自然語言理解和Python結構的基礎知識。熟悉瞭基礎知識之後,其餘章節將解決文本分析中的一些有趣問題,包括文本分類、聚類、相似性分析、文本摘要和主題模型。本書還將分析文本的結構、語義、情感和觀點。對於每個主題,將介紹基本概念,並使用一些現實世界中的場景和數據來實現涵蓋每個概念的技術。本書的構想是呈現一幅文本分析和NLP的藍海,並提供必要的工具、技術和知識以處理和解決工作中遇到的問題。我希望你能覺得本書很有幫助,並祝你在文本分析的世界中旅途愉快!
Python文本分析 下載 mobi epub pdf txt 電子書