怎么把jupyter可视化数据导出来（用JupyterNotebook）

我娶你 2023-03-24 08:38:57

收藏赞分享

怎么把jupyter可视化数据导出来（用JupyterNotebook）(1)

文 | 潮汐

来源：Python 技术「ID: pythonall」

怎么把jupyter可视化数据导出来（用JupyterNotebook）(2)

今天咱们用 Jupyter-Notebook 并结合框架（Selenium）模拟浏览器抓取微博图片并将图片保存本地。

Selenium 是一个用电脑模拟人的操作浏览器网页，可以实现自动化测试，模拟浏览器抓取数据等工作。

环境部署安装 Jupyter notebook

关于 Jupyter notebook 的详细知识点在以往的文章中有做过详细的介绍，详情请参考文章一文吃透 Jupyter notebook

这里只需要在命令行中输入：jupyter notebook 启动跳转到浏览器编辑界面即可。

怎么把jupyter可视化数据导出来（用JupyterNotebook）(3)

浏览器页面：

怎么把jupyter可视化数据导出来（用JupyterNotebook）(4)

安装 Selenium

安装 Selenium 非常简单，只需要用命令 'pip install Selenium' 即可，安装成功提示信息如下：

怎么把jupyter可视化数据导出来（用JupyterNotebook）(5)

下载浏览器驱动

下载驱动地址如下：

Firefox浏览器驱动

chrome浏览器驱动：chromedriver

IE浏览器驱动：IEDriverServer

Edge浏览器驱动：MicrosoftWebDriver

需要把浏览器驱动放入系统路径中，或者直接告知 selenuim 的驱动路径。

环境都搭建好后就可以直接开始爬取数据了。

抓取微博数据

首先导入包，模拟浏览器访问微博主页，详细代码如下：

from selenium import webdriver driver = webdriver.Chrome() driver.get('https://weibo.com/')

此时浏览器会打开一个新页面，如下图所示：

怎么把jupyter可视化数据导出来（用JupyterNotebook）(6)

接下来开始分析页面数据：微博页面搜索奥运会关键字后出现新的页面，然后复制网址，抓取和奥运会相关的图片保存于本地，搜索界面如下：

怎么把jupyter可视化数据导出来（用JupyterNotebook）(7)

输入网址获取网页内容：

driver.get('https://s.weibo.com/weibo/%E5%A5%A5%E8%BF%90%E4%BC%9A?topnav=1&wvr=6&b=1') contents = driver.find_elements_by_xpath(r'//p[@class="txt"]') print(len(contents))

输出内容如下：

怎么把jupyter可视化数据导出来（用JupyterNotebook）(8)

查看网页详细信息：

for i in range(0,3): print("==============================") print(contents[i].get_attribute('innerHTML'))

怎么把jupyter可视化数据导出来（用JupyterNotebook）(9)

获取图片信息：

contents = driver.find_elements_by_xpath(r'//img[@action-type="fl_pics"]') print(len(contents)) for i in range(0,20): print("==============================") print(contents[i].get_attribute('src'))

怎么把jupyter可视化数据导出来（用JupyterNotebook）(10)

下载图片在本地：

import os import urllib.request for i in range(0,20): print("==============================") image_url=contents[i].get_attribute('src') file_name="downloads//p" str(i) ".jpg" print(image_url,file_name) urllib.request.urlretrieve(image_url, filename=file_name)

怎么把jupyter可视化数据导出来（用JupyterNotebook）(11)

至此微博页面关于奥运会的相关图片已保存于本地，图片保存详情如下：

怎么把jupyter可视化数据导出来（用JupyterNotebook）(12)

汇总代码如下

from selenium import webdriver import urllib.request driver = webdriver.Chrome() driver.get('https://weibo.com/') driver.get('https://s.weibo.com/weibo/%E5%A5%A5%E8%BF%90%E4%BC%9A?topnav=1&wvr=6&b=1') contents = driver.find_elements_by_xpath(r'//p[@class="txt"]') for i in range(0,3): print("==============================") print(contents[i].get_attribute('innerHTML')) contents = driver.find_elements_by_xpath(r'//img[@action-type="fl_pics"]') print(len(contents)) for i in range(0,20): print("==============================") print(contents[i].get_attribute('src')) for i in range(0,20): print("==============================") image_url=contents[i].get_attribute('src') file_name="downloads//p" str(i) ".jpg" print(image_url,file_name) urllib.request.urlretrieve(image_url, filename=file_name)

以上汇总代码给没有安装 Jupyter Notebook 的朋友们使用，希望对大家有帮助。

总结

今天的文章主要讲解用 Jupyter Notebook 工具和 Selenium 框架抓取微博数据，希望对大家有所帮助。

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

怎么炖排骨面（我费那么大劲炖了一锅排骨）

他不像你
古埙属于非遗吗（用陶埙吹出苍凉的诗意）

爱上你妹妹
生牛乳跟脱脂牛乳有什么区别（A2生牛乳与普通牛乳有哪些区别）

差一點成熟
韭菜包子怎么包教程（四川包子韩包子）

完美世界
零食的秘密你知道多少（零食这些事儿）

长啸浮云
中考化学题推断题口诀（中考化学推断题解题利器）

蜜可可
lem传感器的精度是多少（RIFTEK-速度和长度传感器-ISD5）

我不会痛

秒懂生活

怎么把jupyter可视化数据导出来（用JupyterNotebook）

猜您喜欢

怎么炖排骨面（我费那么大劲炖了一锅排骨）

古埙属于非遗吗（用陶埙吹出苍凉的诗意）

生牛乳跟脱脂牛乳有什么区别（A2生牛乳与普通牛乳有哪些区别）

韭菜包子怎么包教程（四川包子韩包子）

零食的秘密你知道多少（零食这些事儿）

中考化学题推断题口诀（中考化学推断题解题利器）

lem传感器的精度是多少（RIFTEK-速度和长度传感器-ISD5）

热门推荐

排行榜