AI编程班:Python×ChatGPT网络爬虫从入门到精通

AI编程班:Python×ChatGPT网络爬虫从入门到精通
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: 编著 , 出品
2024-02
版次: 1
ISBN: 9787576333602
定价: 89.00
装帧: 其他
开本: 16开
纸张: 胶版纸
  • 全书共11章,以下是各章的主要内容:
      第1章:主要讲解Python编程环境的搭建方法及Python语言的基础语法知识等内容。
      第2章:主要讲解AI工具的基本使用方法,以及如何在爬虫编程中利用AI工具解决技术难题和提高开发效率。
      第3章:主要讲解如何对网页进行初步分析,包括查看网页源代码、剖析网页的结构、判断网页的类型等,为获取网页源代码并提取数据奠定基础。
      第4、5章:分别讲解静态网页和动态网页的爬取,主要内容包括如何使用Requests模块和Selenium模块获取网页源代码,如何使用正则表达式和BeautifulSoup模块从网页源代码中提取所需数据。
      第6章:主要讲解如何使用pandas等模块对获取的数据进行清洗、处理和分析,以提高数据的质量,并从数据中提取有价值的信息。
      第7章:进一步探索Python网络爬虫的进阶技术,例如,用pandas模块爬取网页表格数据、用数据接口爬取数据、开发带图形用户界面的爬虫程序等。
      第8~11章:通过一系列实际应用场景来实践并强化之前所学的知识。这些场景涵盖了财经、社交媒体、电商等多个领域的数据爬取,以及媒体文件的下载。读者将深入体会如何灵活运用爬虫技术解决实际问题,在遇到困难时如何借助AI工具“见招拆招”,从而踏上编程能力的持续自我提升之路。 第1章 Python入门

    1.1 安装Python编程环境

    1.2 管理第三方模块

    1.3 在代码中导入模块

    1.4 测试Python编程环境

    1.5 变量的命名和赋值

    1.6 Python的基本数据类型:数字、字符串

    1.7 Python的基本数据类型:列表、字典

    1.8 Python的运算符

    1.9 Python的控制语句:if语句

    1.10 Python的控制语句:for语句

    1.11 Python的控制语句:while语句

    1.12 Python的控制语句:try/except语句

    1.13 Python控制语句的嵌套

    1.14 Python的自定义函数

     

    第2章 AI辅助编程基础

    2.1 初识AI工具

    2.2 与AI工具对话的基本操作

    2.3 设计提示词的原则和技巧

    2.4 利用AI工具解读和修改代码

    2.5 利用AI工具分析报错信息

    2.6 利用AI工具阅读技术文档

     

    第3章 网页的初步分析

    3.1 查看网页源代码:右键快捷菜单

    3.2 查看网页源代码:开发者工具

    3.3 认识常见的HTML标签

    3.4 剖析网页的结构

    3.5 判断网页的类型

     

    第4章 静态网页的爬取

    4.1 用Requests模块获取静态网页的源代码

    4.2 正则表达式的基础知识

    4.3 分析网页源代码并编写正则表达式

    4.4 用正则表达式从网页源代码中提取数据

    4.5 CSS选择器的基础知识

    4.6 分析网页源代码并编写CSS选择器

    4.7 用BeautifulSoup模块从网页源代码中提取数据

    4.8 用Requests模块下载文件

    4.9 静态网页爬取实战1:单页爬取

    4.10 静态网页爬取实战2:多页爬取

     

    第5章 动态网页的爬取

    5.1 搭建Selenium模块的运行环境

    5.2 用Selenium模块获取网页源代码

    5.3 操控浏览器:用XPath定位网页元素

    5.4 操控浏览器:用CSS选择器定位网页元素

    5.5 操控浏览器:自动向下滚动页面

    5.6 操控浏览器:自动下载文件

    5.7 操控浏览器:切换标签页

    5.8 操控浏览器:切换至标签中的子网页

    5.9 操控浏览器:启用无界面模式

    5.10 用Requests模块获取动态加载的数据

    5.11 使用Cookie模拟登录

    5.12 动态网页爬取实战1:单页爬取

    5.13 动态网页爬取实战2:多页爬取

     

    第6章 爬虫数据的处理和分析

    6.1 pandas模块的基本数据结构:Series

    6.2 pandas模块的基本数据结构:DataFrame

    6.3 用pandas模块读写数据文件

    6.4 DataFrame的常用操作:选取数据

    6.5 DataFrame的常用操作:数据的运算、排序和筛选

    6.6 爬虫数据清洗:处理缺失值和重复值

    6.7 爬虫数据清洗:删除无用的字符

    6.8 爬虫数据清洗:转换数据类型

    6.9 爬虫数据清洗:补全数据

    6.10 爬虫数据分析与可视化

     

    第7章 Python爬虫技术进阶

    7.1 用pandas模块爬取网页表格数据

    7.2 用数据接口爬取数据

    7.3 开发带图形用户界面的爬虫程序

    7.4 爬虫程序的打包

    7.5 爬虫提速:优化Selenium模块的等待方式

     

    第8章 综合实战:财经数据爬取

    8.1 爬取证券日报网的财经新闻

    8.2 爬取搜狐的财经要闻

    8.3 爬取东方财富网的财务报表

    8.4 爬取新浪财经的上市公司盈利能力数据

    8.5 批量下载上海证券交易所的问询函

    8.6 批量下载东方财富网的研报

     

    第9章 综合实战:社交媒体数据爬取

    9.1 爬取百度热搜榜

    9.2 爬取新浪微博热搜榜

    9.3 爬取好看视频的数据

     

    第10章 综合实战:电商数据爬取

    10.1 爬取当当网的图书畅销榜数据

    10.2 爬取京东的商品评价

     

    第11章 综合实战:媒体文件下载

    11.1 批量下载图片

    11.2 批量下载视频
  • 内容简介:
    全书共11章,以下是各章的主要内容:
      第1章:主要讲解Python编程环境的搭建方法及Python语言的基础语法知识等内容。
      第2章:主要讲解AI工具的基本使用方法,以及如何在爬虫编程中利用AI工具解决技术难题和提高开发效率。
      第3章:主要讲解如何对网页进行初步分析,包括查看网页源代码、剖析网页的结构、判断网页的类型等,为获取网页源代码并提取数据奠定基础。
      第4、5章:分别讲解静态网页和动态网页的爬取,主要内容包括如何使用Requests模块和Selenium模块获取网页源代码,如何使用正则表达式和BeautifulSoup模块从网页源代码中提取所需数据。
      第6章:主要讲解如何使用pandas等模块对获取的数据进行清洗、处理和分析,以提高数据的质量,并从数据中提取有价值的信息。
      第7章:进一步探索Python网络爬虫的进阶技术,例如,用pandas模块爬取网页表格数据、用数据接口爬取数据、开发带图形用户界面的爬虫程序等。
      第8~11章:通过一系列实际应用场景来实践并强化之前所学的知识。这些场景涵盖了财经、社交媒体、电商等多个领域的数据爬取,以及媒体文件的下载。读者将深入体会如何灵活运用爬虫技术解决实际问题,在遇到困难时如何借助AI工具“见招拆招”,从而踏上编程能力的持续自我提升之路。
  • 目录:
    第1章 Python入门

    1.1 安装Python编程环境

    1.2 管理第三方模块

    1.3 在代码中导入模块

    1.4 测试Python编程环境

    1.5 变量的命名和赋值

    1.6 Python的基本数据类型:数字、字符串

    1.7 Python的基本数据类型:列表、字典

    1.8 Python的运算符

    1.9 Python的控制语句:if语句

    1.10 Python的控制语句:for语句

    1.11 Python的控制语句:while语句

    1.12 Python的控制语句:try/except语句

    1.13 Python控制语句的嵌套

    1.14 Python的自定义函数

     

    第2章 AI辅助编程基础

    2.1 初识AI工具

    2.2 与AI工具对话的基本操作

    2.3 设计提示词的原则和技巧

    2.4 利用AI工具解读和修改代码

    2.5 利用AI工具分析报错信息

    2.6 利用AI工具阅读技术文档

     

    第3章 网页的初步分析

    3.1 查看网页源代码:右键快捷菜单

    3.2 查看网页源代码:开发者工具

    3.3 认识常见的HTML标签

    3.4 剖析网页的结构

    3.5 判断网页的类型

     

    第4章 静态网页的爬取

    4.1 用Requests模块获取静态网页的源代码

    4.2 正则表达式的基础知识

    4.3 分析网页源代码并编写正则表达式

    4.4 用正则表达式从网页源代码中提取数据

    4.5 CSS选择器的基础知识

    4.6 分析网页源代码并编写CSS选择器

    4.7 用BeautifulSoup模块从网页源代码中提取数据

    4.8 用Requests模块下载文件

    4.9 静态网页爬取实战1:单页爬取

    4.10 静态网页爬取实战2:多页爬取

     

    第5章 动态网页的爬取

    5.1 搭建Selenium模块的运行环境

    5.2 用Selenium模块获取网页源代码

    5.3 操控浏览器:用XPath定位网页元素

    5.4 操控浏览器:用CSS选择器定位网页元素

    5.5 操控浏览器:自动向下滚动页面

    5.6 操控浏览器:自动下载文件

    5.7 操控浏览器:切换标签页

    5.8 操控浏览器:切换至标签中的子网页

    5.9 操控浏览器:启用无界面模式

    5.10 用Requests模块获取动态加载的数据

    5.11 使用Cookie模拟登录

    5.12 动态网页爬取实战1:单页爬取

    5.13 动态网页爬取实战2:多页爬取

     

    第6章 爬虫数据的处理和分析

    6.1 pandas模块的基本数据结构:Series

    6.2 pandas模块的基本数据结构:DataFrame

    6.3 用pandas模块读写数据文件

    6.4 DataFrame的常用操作:选取数据

    6.5 DataFrame的常用操作:数据的运算、排序和筛选

    6.6 爬虫数据清洗:处理缺失值和重复值

    6.7 爬虫数据清洗:删除无用的字符

    6.8 爬虫数据清洗:转换数据类型

    6.9 爬虫数据清洗:补全数据

    6.10 爬虫数据分析与可视化

     

    第7章 Python爬虫技术进阶

    7.1 用pandas模块爬取网页表格数据

    7.2 用数据接口爬取数据

    7.3 开发带图形用户界面的爬虫程序

    7.4 爬虫程序的打包

    7.5 爬虫提速:优化Selenium模块的等待方式

     

    第8章 综合实战:财经数据爬取

    8.1 爬取证券日报网的财经新闻

    8.2 爬取搜狐的财经要闻

    8.3 爬取东方财富网的财务报表

    8.4 爬取新浪财经的上市公司盈利能力数据

    8.5 批量下载上海证券交易所的问询函

    8.6 批量下载东方财富网的研报

     

    第9章 综合实战:社交媒体数据爬取

    9.1 爬取百度热搜榜

    9.2 爬取新浪微博热搜榜

    9.3 爬取好看视频的数据

     

    第10章 综合实战:电商数据爬取

    10.1 爬取当当网的图书畅销榜数据

    10.2 爬取京东的商品评价

     

    第11章 综合实战:媒体文件下载

    11.1 批量下载图片

    11.2 批量下载视频
查看详情
12