博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
网络数据抓取
阅读量:7077 次
发布时间:2019-06-28

本文共 873 字,大约阅读时间需要 2 分钟。

安装pip - Python的安装包管理工具 mac 已经自带Python,我的mac 系统是Sierra, 自带python版本是Python 2.7.13 sudo easy_install pip

相关工具安装: 1、网络请求工具 pip install lxml pip install requests

2、网页数据解析工具 pip install beautifulsoup4

3、解析器 pip install html5lib

示例1:获取我的简书首页展示的所有文章标题 ( http://www.jianshu.com/u/5b771dd604fd )

网页元素查看如下:

Python代码展示:

from lxml import htmlfrom lxml import etreefrom urllib import urlopenimport requestsimport bs4from bs4 import BeautifulSoupimport html5lib//网页数据获取examplePage = urlopen('http://www.jianshu.com/u/5b771dd604fd')//HTML数据soupExam = BeautifulSoup(examplePage,"html5lib")//网页标题print soupExam.titleprint soupExam.title.string//文章标题for link in soupExam.find_all('a',class_ = 'title'):	print(link.text)复制代码

结果输出如下:

示例2:个别网站出现如下问题 1、希望获取红色标记中的数据:

2、但是获取到的都是 <\a> text </a> 中的text内容:

问题原因如下: (1)后台脚本requests网络数据,需要账号相关数据,解决方法为添加cookies; (2)网页有刷新机制,首先获取到的数据为刷新状态,解决方法为sleep一段时间;

转载地址:http://dxjml.baihongyu.com/

你可能感兴趣的文章
.Net开源SqlServer ORM框架SqlSugar整理
查看>>
JQuery在循环中绑定事件的问题详解
查看>>
SOCKS 5协议详解(转)
查看>>
用Inno Setup来解决.NetFramework安装问题 (转载)
查看>>
使用axis调用WebService服务端
查看>>
Linux下通过受限bash创建指定权限的账号
查看>>
php:使用XHProf查找PHP性能瓶颈
查看>>
Ubuntu单用户模式(安全模式)
查看>>
Python之反射练习
查看>>
[MST] Describe Your Application Domain Using mobx-state-tree(MST) Models
查看>>
6. python 字符串格式化表达式
查看>>
【BIEE】11_BIEE图形报表在谷歌浏览器64.0.3282.140中访问图例乱码解决
查看>>
Nginx网站常见的跳转配置实例
查看>>
GitFlow工作流常用操作流程
查看>>
asp.net跳出iframe结构转向登录
查看>>
QTTabBar
查看>>
MODBUS协议整理——功能码简述
查看>>
eclipse里maven项目An error occurred while filtering resources解决办法
查看>>
MySQL导入SQL文件及常用命令
查看>>
Can't locate find.pl in @INC (@INC contains: /etc/perl xxxx) at perlpath.pl line 7.
查看>>