周六開班倒計時：AI賦能的Python爬蟲與文本分析師資培訓

2024-04-10資訊

2024新課

隨著資訊化時代的深入發展，數據已成為推動科研和教育進步的重要動力。Python，作為一門高效、易讀、易學的程式語言，已經成為數據科學、機器學習、人工智慧等領域的首選工具。為了幫助更多的教育工作者和研究者掌握這一時代的關鍵技能，我們即將在本周六開啟新一輪的Python爬蟲與文本分析師資培訓課程。

在這個數據驅動的時代，掌握Python和AI技術，將為您的學術研究帶來無限可能。

2024 年Python師資培訓課程新課
基於AI輔助的爬蟲與文本分析

Python師資培訓自2020年至今已有300+老師和同學參加，

為學術量身打造的Python系列課程包括編程基礎與數據清洗，爬蟲，文本分析，機器學習，深度學習，

陳遠祥老師精彩細致的授課和課後耐心的答疑得到了所有學員的一致好評~

師資培訓

培訓亮點

AI 賦能的課程內容： 結合最新的AI技術，本次培訓將深入講解Python在爬蟲和文本分析中的套用，幫助您從海量數據中提取有價值的資訊，為決策提供科學依據。

實戰導向的教學方法： 透過計畫實戰，將理論知識轉化為實際技能，提升解決實際問題的能力。

資深講師團隊： 由北京郵電大學的陳遠祥博導親授及親自答疑，他豐富的教學和研究經驗將為您提供高品質的學習體驗。

師資培訓

課程資訊

培訓時間：

爬蟲遇見AI：2024年4月13-14日 (兩天)

文本分析遇見AI：2024年4月20-21日 (兩天)

培訓方式： 遠端直播，提供錄播回放

授課安排： 9:00-12:00；14:00-17:00；答疑

先發優惠： 贈送Python編程基礎與數據清洗15小時課程（單獨售價1300元）

師資培訓

授課及答疑講師

陳遠祥，北京郵電大學副教授，博導。博士畢業於北京大學，2015年-2017年在北京大學做博士後研究。主要研究方向包括光無線融合技術，智慧訊號處理，以及基於人工智慧的訊號處理技術。發表SCI/EI學術論文80余篇，其中第一或通訊作者論文40余篇，申請發明專利4項。主持國家自然科學基金面上計畫，國家重點研發計劃子課題，國家自然科學基金青年計畫及博士後基金等多個國家級和省部級計畫。 IEEE、OSA會員，Optics Express, IEEE Photonics Technology Letters，Photonics Journal，Applied Optics等多個SCI期刊審稿人。

師資培訓

課程特色

研究加速器： 專為學術研究者設計，透過掌握爬蟲與文本分析技能，加速研究計畫進度。

學術深度： 深入探討爬蟲與文本分析的各個層面，包括最新的深度學習技術，確保您的研究方法論緊跟學術界的最新趨勢。

論文發表加分： 高品質的數據和深入的文本分析是發表高水平論文的關鍵。

師資培訓

課程大綱

爬蟲部份

（4月13-14日）

1. 爬蟲與文本分析概述

目標： 了解爬蟲和文本分析常見套用場景，如何高效挖掘文本價值

1) 爬蟲常見套用場景，結構化數據/文本數據的獲取方法概述

2) 高效的程式語言實作結構化數據處理與文本分析的價值

2. 爬蟲基礎

目標： 掌握爬蟲基本概念，爬蟲基本流程，掌握網頁基礎知識，學會簡單網頁制作

1) 什麽是網路爬蟲

2) 爬蟲的基本原理

3) web網頁基礎

4) 爬蟲基本流程

3. 頁面解析和數據儲存

目標： 掌握正規表式的用法，學會利用正規表式進行文本資訊提取，掌握常見文本資訊儲存方法

1) 基於正規表式的文本資訊提取

2) 文字檔案儲存

3) JSON檔儲存

4. urllib和requests

目標： 掌握兩種基本的請求發送方法，透過案例展示，實作單頁和多頁數據爬取，掌握動態頁面爬取方法，掌握模擬登入，IP代理常用方法，實作高效率、大規模的網路爬取

1) 請求頭的構造

2) get請求與post請求

3) 單頁和多頁數據的爬取

4) 動態頁面的數據爬取

5) 模擬登入

6) 代理的基本使用

7) 高效代理池的維護

5. Beautiful Soup和Xpath

目標： 透過案例，掌握兩種高效的網頁資訊解析和提取方法，實作網路數據的高效提取

1) Beautiful Soup簡介

2) Beautiful Soup的頁面解析

3) Beautiful Soup節點選擇方法

4) 什麽是Xpath

5) Xpath常用匹配規則

6) Xpath的節點選擇

6. Selenium和Playwright

目標： 透過案例，掌握動態渲染頁面的兩種自動化的爬蟲方法

1) Selenium的安裝與配置

2) Selenium的基本使用

3) 頁面的存取與節點定位

4) 節點資訊的獲取

5) Playwright的安裝

6) Playwright的編寫模式

7) Playwright程式碼生成

8) Playwright的常用操作方法

7. 驗證碼的處理

目標： 針對驗證碼反爬蟲機制，掌握幾種常用驗證碼辨識方法

1) OCR辨識驗證碼

2) 影像匹配辨識滑動驗證碼

3) 深度學習辨識滑動驗證碼

8. Scrapy和分布式爬蟲

目標： 掌握scrapy爬蟲框架和常用方法，理解分布式爬蟲原理

1) scrapy框架介紹

2) scrapy入門

3) scrapy的節點選擇

4) Spider的用法

5) 分布式爬蟲原理

6) 分布式爬蟲部署

9. 基於AI輔助的網路爬蟲

目標： 利用AI輔助爬蟲，提高爬蟲效率

1) 自動提取資訊

2) 適應動態網頁

3) 突破反爬機制

文本分析部份

（4月20-21日）

10. 文本分析概述

目標： 掌握文本分析的基本概念，文本分析的發展歷程，文本分析流程和挑戰

1) 文本數據與文本分析

2) 自然語言處理的流派

3) 文本分析的常見套用

4) 文本分析的層次

5) 文本分析的流程

6) 文本分析的挑戰

11. 文本單元的提取與標註

目標： 掌握文本常用清洗方法，分詞原理和方法，詞性標註方法

1) 文本清洗

2) 分詞

3) 詞性標註

12. 文本特征的選取與表示

目標： 掌握文本的常用結構化表示方法，利用多種方法實作文本特征提取，理解每種特征提取的優缺點

1) 文本向量化

2) 詞袋模型

3) TF-IDF

4) Word2Vec

5) GloVe

6) Doc2vec

13. 關鍵詞提取

目標： 掌握三種關鍵詞提取方法

1) TF-IDF

2) Text Rank

3) LDA

14. 文本分析的套用

目標： 掌握文本分析的常見套用，和傳統的機器學習方法結合，實作文本的分類，聚類，摘要提取，情感分析等功能

1) 文字雲

2) 文本分類

3) 文本聚類

4) 文本摘要

5) 情感分析

15. 基於深度學習的文本分析技術

目標： 掌握最新的深度學習在文本分析中的套用，包括RNN，LSTM,CNN，註意力，Transformer等模型和機制的引入

1) RNN

2) Bi-LSTM

3) text CNN

4) GRU

5) 註意力機制

6) BERT和Transformer

16. 基於AI輔助的文本分析

目標： AI輔助文本分析，高效提取文本價值

1) 文本摘要

2) 文本轉譯

3) 文本分類

4) 文本聚類

5) 情感分析

如果您想要提升自己的研究品質和學術競爭力，請不要猶豫，立即聯系我們進行報名。

我們提供持續的學術咨詢，確保您在研究過程中始終處於技術前沿。

我們期待在本周六的培訓中與您相見，共同開啟AI賦能的Python新紀元！

師資培訓

Python師資培訓系列課程
試聽及咨詢

尹老師

電話: 13301322952

微信: jg-xs6