爬虫原理,附三大爬虫案例

写爬虫用什么语言好？

写爬虫用什么语言好

爬虫选择什么工具呢？1.爬虫是网络蜘蛛机器人，自动爬取数据，按我们制定的规则获取数据2.为什么要用爬虫呢，私人定制搜索引擎，获得更多的数据，不再是互联网时代而是大数据时代3.爬虫的原理：控制节点（url分配器）、爬虫节点（按照算法爬取数据存储到数据库）、资源库（存储爬取的数据库供应搜索）4.爬虫的设计思路：爬取的网络地址、http协议获取对应的html页面5.爬虫语言选择：PHP：虽然冠名“世界上最好的语言”，但是作为爬虫的缺点：没有多线程的概念，对异步的支持不多，并发不足，爬虫要求效率高C/c ：运行效率和性能最高的语言，但是学习成本非常高，代码成型较大Java：生态圈非常广大，python最大的竞争者，本身非常笨重体量积，爬虫需要经常修改代码Python：语言优美、代码简介、第三方功能模块多scrapy、调用替他语言接口、成熟较高的分布式策略。

有哪些有趣的反爬虫机制吗？

有哪些有趣的反爬虫机制吗

说下我以前爬某电影评分网站时遇到的反爬机制吧，感觉还挺有趣的。爬数据时遇到的问题首先来说说我在爬数据时遇到的问题，看图：页面上正确显示了评分为9.5，按F12打开调试模式，找到该元素节点时发现显示的是两个框框，再打开源码发现是一串乱码。页面数字显示正常，在源码中却显示乱码，可以肯定该网站肯定采取了反爬虫机制，有点意思！反爬虫机制原理下面分析一下这个反爬虫机制的原理。

做过web前端开发的人知道显示框框一般都是由于引用了字体文件引起，那么这个网站反爬虫机制会不会跟字体文件有关呢？刷新一下页面，发现一个字体文件的请求：我们手动将这个字体文件下载下来，使用字体编辑工具打开：虽然我不是太懂字体文件的原理，但是按我的理解其实就是一个字符和数字关系映射文件，例如字符E282对应数字9、字符F11B对应数字5。

现在我们再来看一下源码里的乱码：有没有看出什么端倪？是的，它们并不是什么乱码，而是而字体文件里的字符一一对应的！根据对应关系可以推断出乱码“