标签爬虫下的文章 - 易航博客

REC

首页
文章分类
其他页面

热门文章

Joe再续前缘主题 - 搭建本站同款网站易航网址导航系统 – 功能强大，轻量易用 JsonDb-PHP轻量级文件数据库系统 Typecho一键调整网站为冬天情景插件 V免签全开源免签约码支付系统（支持：支付宝微信 QQ）

标签搜索

PHP Web前端网站源码 PHP源码 Typecho Typecho插件课程资料 Windows程序 Android软件武术内功 HTML源码 Web Joe主题 Python Windows 国漫网络协议 MySQL NodeJs 小说

发布

登录
注册

找到 2 篇与爬虫相关的结果

2025-01-26
抖音采集下载工具 TikTokDownloader TikTokDownloader 是一个开源项目，功能强大的抖音数据采集工具。它支持多种功能，包括下载无水印视频、图集，采集抖音详细数据，以及获取直播推流地址等。功能介绍下载无水印视频/图集：轻松获取高清无水印内容。批量下载作品：支持批量下载抖音账号发布的视频、喜欢的视频、收藏的作品。采集详细数据：获取抖音视频的详细数据，方便分析和研究。自动跳过已下载文件：避免重复下载，节省时间和空间。持久化保存数据：采集的数据可以持久保存，方便后续查看。下载封面图：支持下载动态和静态封面图。获取直播推流地址：可以获取抖音直播的推流地址，方便观看。 Web UI 交互界面：简单易用，双击main.exe即可打开程序，按提示操作即可。工具预览图图片图片下载地址隐藏内容，请前往内页查看详情使用说明配置 Cookie：使用前需要先配置 Cookie，具体操作请参考离线文档。操作步骤：双击main.exe打开程序，按提示操作即可进入 Web UI 交互模式。

源码资源 # 爬虫 # 采集

教主 1月26日
2 230 0
2025-01-23
Python 利用无头浏览器爬虫爬取笔趣阁小说前言用户有需求，需要将笔趣阁的小说便捷地保存为文档到本地。笔趣阁有反爬措施，小说内容为JS动态生成，Python的requests库与requests_html已无法满足需求，因此使用类似selenium但非selenium的无头浏览器爬虫实现小说爬取。教程步骤下载安装Chromium 明确Chromium默认安装路径编写代码明白爬取参数与注意事项开始爬取查看结果步骤1. 下载安装Chromium 下载方式一：官网下载 -> Chromium下载链接下载方式二：夸克网盘下载保存 -> Chromium下载器下载后，直接双击安装器完成安装。步骤2. 明确Chromium默认安装路径安装后，需要明确默认安装的位置，因为代码中会用到。我的电脑用户名为AW，因此被安装在了如下路径：C:\Users\AW\AppData\Local\Chromium\Application\chrome.exe 步骤3. 编写代码这段代码中用到的库主要为pyppeteer和python-docx，这两个库需额外下载。最终代码如下： import asyncio import os from docx import Document from pyppeteer import launch # 禁用自动下载Chromium os.environ["PYPPETEER_SKIP_CHROMIUM_DOWNLOAD"] = "true" async def main(): wordName = "宿命之环1~3章.docx" # Word文件名 netName = "https://www.22biqu.com" # 笔趣阁域名 firstPagePath = "/biqu5251/5259122.html" # 起始页路径 endPagePath = "/biqu5251/5259124.html" # 结束页路径 catchUrl = netName + firstPagePath pageCount = 0 endFlag = False while True: try: doc = Document(wordName) except: doc = Document() browser = await launch(executablePath=r'C:\Users\AW\AppData\Local\Chromium\Application\chrome.exe', headless=True) page = await browser.newPage() await page.goto(catchUrl) element = await page.querySelector('h1.title') if element: text = await page.evaluate('(element) => element.innerText', element) doc.add_heading(text, level=1) else: print('Element not found.') content_element = await page.querySelector('#content') if content_element: paragraphs = await content_element.querySelectorAll('p') for paragraph in paragraphs: text = await page.evaluate('(p) => p.innerText', paragraph) doc.add_paragraph(text) else: print('Content element not found.') element = await page.querySelector('#next_url') next_url = "" if element: next_url = await page.evaluate('(element) => element.getAttribute("href")', element) catchUrl = netName + next_url else: print('Element not found.') await browser.close() doc.save(wordName) if endFlag: break pageCount += 1 print("已完成页码" + str(pageCount)) if next_url == endPagePath: print("匹配到结束链接:" + str(endPagePath)) print("即将结束") endFlag = True asyncio.run(main())步骤4. 明白爬取参数与注意事项在使用上述代码时，需要注意以下参数： wordName：爬取后Word保存的名称，建议爬什么就取什么名，且加上多少章到多少章。 firstPagePath：起始页路径，比如从《宿命之环》第3章开始爬起，则路径为/biqu5251/5259124.html。 endPagePath：结束页路径，建议不要与起始页隔得太远，否则Word文件会因字数过多而卡顿。建议分章节爬取。步骤5. 开始爬取设置好参数后，直接运行代码即可。爬取完成后，小说将以Word文档形式保存到本地。步骤6. 查看结果打开保存的Word文件，章节标题和内容将整齐排列，还可通过章节导航快速定位。结语此教程适用于Python初学者，后续可优化为PyQt程序，提升用户体验。

技术教程 # Python # 浏览器 # 爬虫

教主 1月23日
0 40 1

易航

265 文章数

1,701 评论量

PHP使用Curl函数进行远程请求案例，爬虫，可保存账户登录状态
PHP在线刷pv流量工具源码
倒悬飞剑红炉起，来时再破三千舟！

站点公告

欢迎加入IT技术交流群：789857817

人生倒计时

标签云

PHP Web前端网站源码 PHP源码 Typecho Typecho插件课程资料 Windows程序 Android软件武术内功 HTML源码 Web Joe主题 Python Windows 国漫网络协议 MySQL NodeJs 小说

易航博客，涵盖技术与探索的开放写作平台。聚集热爱编程和互联网技术的朋友，各类探索领域的最新动态。在这里您可以自由畅想，探索热情，激发灵感，找到志同道合伙伴。我们相信，哪里有知识分享，哪里就有无限可能。这里有最前沿的技术，更有最优秀的我们，一起翱翔于技术与探索的天地。
友链申请免责声明广告合作关于我们

RSS MAP 冀ICP备2021010323号
Copyright © 2022 - 2024 · 易航博客

已运行 00 天 00 时 00 分 00 秒

今日浏览量 ...丨昨日访客 ...丨本月访问量 ...
扫码加QQ群

扫码加微信