京东数字科技控股股份有限公司10月招聘面试题144道20201011

使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。()

此题为判断题(对，错)。

正确答案:对

使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。

A、Redis

B、RedisSpider

C、Spider

D、MongoDB

参考答案：A

设置TCP/IP属性筛选TCP/IP只允许TCP的80端口（网页浏览）数据通过。

正确答案：[$]
[$]

()采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫

参考答案：D

以下关于网络爬虫的说法,不正确的是()。

A、网络爬虫还可以对网页建立索引

B、有些网络爬虫能够从网站抓取内容聚合起来

C、有些网络爬虫甚至能发动DDos攻击、发送垃圾邮件等

D、隐藏在表单后的信息无法被网络爬虫发现

参考答案：D

京东数字科技控股股份有限公司10月招聘面试题面试题面试官常问到的一些题目整理如下：问题 Q1：如何在Python中复制对象？可用的回答：要在Python中复制对象，可以尝试copy.copy() 或 copy.deepcopy() 来处理一般情况。copy.copy()浅拷贝，复制引用；copy.deepcopy()深拷贝，完全独立的对象问题 Q2：遇到过得反爬虫策略以及解决方法?可用的回答：反爬虫策略: 1.通过headers反爬虫 2.基于用户行为的发爬虫(同一IP短时间内访问的频率,封IP) 3.动态网页反爬虫(通过ajax请求数据，或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码) 解决方法： 1. 对于基本网页的抓取可以自定义headers,添加headers的数据 2. 使用多个代理ip进行抓取或者设置抓取的频率降低一些， 3. 动态网页的可以使用selenium + phantomjs 进行抓取 4. 对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。问题 Q3：写爬虫使用多进程好，还是用多线程好？可用的回答： IO密集型代码(文件处理、网络爬虫等)，多线程能够有效提升效率(单线程下有IO操作会进行IO等待，造成不必要的时间浪费，而开启多线程能在线程A等待时，自动切换到线程B，可以不浪费CPU的资源，从而能提升程序执行效率)。在实际的数据采集过程中，既考虑网速和响应的问题，也需要考虑自身机器的硬件情况，来设置多进程或多线程问题 Q4：Python里面match()和search()的区别？可用的回答：re模块中match(pattern,string,flags),检查string的开头是否与pattern匹配。re模块中research(pattern,string,flags),在string搜索pattern的第一个匹配值。问题 Q5：常见的HTTP状态码有哪些？可用的回答： 200 OK 301 Moved Permanently 302 Found 304 Not Modified 307 Temporary Redirect 400 Bad Request 401 Unauthorized 403 Forbidden 404 Not Found 410 Gone 500 Internal Server Error 501 Not Implemented 问题 Q6：有哪些工具可以帮助查找错误或执行静态分析？可用的回答： PyChecker是一个静态分析工具，可以检测Python源代码中的错误，并警告错误的风格和复杂性。 Pylint是另一种验证模块是否符合编码标准的工具。 auto-pep8工具也可以进行静态代码检查问题 Q7：IO多路复用的作用？可用的回答：基本概念 IO多路复用是指内核一旦发现进程指定的一个或者多个IO条件准备读取，它就通知该进程。 IO多路复用适用如下场合：（1）当客户处理多个描述字时（一般是交互式输入和网络套接口），必须使用I/O复用。（2）当一个客户同时处理多个套接口时，而这种情况是可能的，但很少出现。（3）如果一个TCP服务器既要处理监听套接口，又要处理已连接套接口，一般也要用到I/O复用。（4）如果一个服务器即要处理TCP，又要处理UDP，一般要使用I/O复用。（5）如果一个服务器要处理多个服务或多个协议，一般要使用I/O复用。与多进程和多线程技术相比，I/O多路复用技术的最大优势是系统开销小，系统不必创建进程/线程，也不必维护这些进程/线程，从而大大减小了系统的开销。问题 Q8：python提供的内置类型是什么？可用的回答：可变类型的内置类型: List Sets Dictionaries 不可变的内置类型: Strings Tuples Numbers 问题 Q9：常见的HTTP方法有哪些？可用的回答： GET：请求指定的页面信息，返回实体主体； HEAD:类似于get请求，只不过返回的响应中没有具体的内容，用于捕获报头； POST：向指定资源提交数据进行处理请求(比如表单提交或者上传文件)，。数据被包含在请求体中。 PUT:从客户端向服务端传送数据取代指定的文档的内容； DELETE：请求删除指定的页面； CONNNECT：HTTP1.1协议中预留给能够将连接方式改为管道方式的代理服务器； OPTIONS:允许客户端查看服务器的性能； TRACE：回显服务器的请求，主要用于测试或者诊断。问题 Q10：单引号，双引号，三引号的区别？可用的回答：单引号和双引号是等效的，如果要换行，需要符号(),三引号则可以直接换行，并且可以包含注释如果要表示Lets go 这个字符串单引号：s4 = Lets go 双引号：s5 = “Lets go” s6 = I realy like“python”! 这就是单引号和双引号都可以表示字符串的原因了算法题面试官常问到的一些算法题目整理如下（大概率会机考）：算题题 A1：糖果公平交换题目描述如下：Alice and Bob have candy bars of different sizes: Ai is the size of the i-th bar of candy that Alice has, and Bj is the size of the j-th bar of candy that Bob has.Since they are friends, they would like to exchange one candy bar each so that after the exchange, they both have t

()的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

A、基于目标网页特征

B、基于领域概念

C、基于目标数据模式

D、深层网络爬虫

参考答案：C

增量式爬虫中的()指的是:爬虫根据个体网页的改变频率来重新访问各页面。

A、统一更新法

B、基于分类的更新法

C、个体更新法

D、随机更新法

参考答案：C

增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。

A、统一更新法

B、基于分类的更新法

C、个体更新法

D、随机更新法

参考答案：B

通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。

A、数据库

B、播放器

C、用户代理

D、源服务器

参考答案：C

如果要采集指定的数据,则需要使用到(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A、增量式网络爬虫

B、聚焦网络爬虫

C、DeepWeb爬虫

D、全网爬虫

参考答案：B

京东数字科技控股股份有限公司10月招聘面试题144道20201011

更多 “京东数字科技控股股份有限公司10月招聘面试题144道20201011” 相关考题

相关内容

最新试卷

热门试卷