资源详情

新川教版（2019）信息技术九年级上册第3单元我的课外读物-网络爬虫知识点+练习（学生版+解析版）

文档属性

名称	新川教版（2019）信息技术九年级上册第3单元我的课外读物-网络爬虫知识点+练习（学生版+解析版）
格式	pdf
文件大小	1.2MB
资源类型	教案
版本资源	川教版
科目	信息科技（信息技术）
更新时间	2022-07-14 18:10:17

点击下载

图片预览

文档简介

九年级上册
第三单元我的课外读物-网络爬虫
一、教材体系
明确任务
实现方法
爬取网络信总
Python爬虫
提取书籍的名称
同时提取书名和
保存信息
我的课外读物
法律规定
我的课外读物
案例分析
处理网络信息
拓展阅读
爬虫中的法律
和滔
二、知识点
1.分析任务要达到的目标。（用python程序把网页的信息获取下来，对信息进行筛选和整理，并且保存下来，
再进行简单的处理，最后得到我们想要的信息。这个过程可以概括为获取信息、处理信息、保存信息、使
用/分析信息等步骤。)
2.学会将任务分解成小任务并梳理出方法和步骤。（使用requests模块获取信息、使用BeautifulSoup模块处
理信息、保存信息至文件、使用pandas模块排序)
3.学会在Python中使用requests模块访问网络，获取信息。（编写代码、运行代码、观察网页源代码，找出
标签和关键字、定义字符串)
4.学会使用BeautifulSoup模块，对获取到的信息进行清理。（用BeautifulSoup模块调用Ixml解析器处理网
页源代码resTxt,分析出源代码中的标签、数据等，并将处理后的结果赋值给变量resStr。.使用BeautifulSoup
模块，提取网页中书籍的名称。用class="title"作为关键字，通过select函数来取得所有书籍的名称列表sm)
5.了解Html标签在使用BeautifulSoup模块时的作用。（使用BeautifulSoup模块从网页中获取到需要的信息，
关键在于从tml中找到所需信息的“标签”，通过标签的值，就可以将需要的信息提取出来)
6.学会字符串合并、替换等简单操作。（使用+号，可以将两个字符串合并在一起。用+号合并字符串时，两
个字符串之间是没有间隔的。使用替换命令replace可以将新内容替换原内容)
7.掌握在Python中使用open函数保存文件，了解常用编码方式UTF-8与GBK。(在Python中，我们通常
使用open函数来打开、保存、读取及写入文件。使用open函数打开文件，要注意打开方式的参数：读“，”、
写“w”、追加“ā”、读文件时要求文件已经存在，写或者追加时，若文件不存在可以自动创建一个新文件。
写入文件时要注意，“w”方式会把原来的内容覆盖，"a”方式会把新内容加在原文末尾。UTF-8是全球统一
的通用编码，而GBK编码是中文环境中的一种编码，并不通用。)
8.了解编写爬虫程序可能带来的法律和道德问题。（全国人民代表大会常务委员会在2016年11月7日通过
了《中华人民共和国网络安全法》，2017年6月1日正式实施。法律规定：任何个人和组织不得窃取或者以
其他非法方式获取个人信息，不得非法出售或者非法向他人提供个人信息；爬取数据过程中不应侵犯他人
的知识产权。我们在编写爬虫程序时，一定要遵守相关道德准则和法律法规。)
9.了解并遵守爬虫道德规范。

点击下载

同课章节目录

点击下载

VIP下载

新川教版（2019）信息技术九年级上册 第3单元 我的课外读物-网络爬虫 知识点+练习（学生版+解析版）

文档属性

图片预览

文档简介

新川教版（2019）信息技术九年级上册第3单元我的课外读物-网络爬虫知识点+练习（学生版+解析版）