四川托普软件投资股份有限公司1月招聘面试题146道2020120

在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作 ()

A.spiders文件夹

B.item.py

C.pipeline.py

D.settings.py

正确答案：C

---Ring off engine! ---Ring off engine! _________________

A.Finished with engine!

B.Engine rung off!

C.Engine stand by!

D.Got it.

正确答案：B

---Finished with engine! ---Reply: Finished with engine! ---Report: __________.

A.Finished with engine

B.Engine finished

C.\

D.Well

正确答案：B

从使用者的角度看，搜索引擎(Search Engine)系统提供了一个网页界面，让其通过浏览器提交一个词语（或短语），然后很快返回一个可能和用户输入内容相关的信息列表。该列表中的每一条目至少包括标题、摘要和

A．关键词 B．URL C．页面等级 D．相关度评价

正确答案：B
搜索引擎即信息查找的发动机，一般将其定义为帮助Internet用户查询信息的软件系统。从使用者的角度看，搜索引擎提供了一个网页界面，让其通过浏览器提交一个词语或短语，然后很快返回一个可能和用户输入内容相关的信息列表。在信息列表中每一条代表一篇网页，每个条目至少有标题、URL、摘要等3个元素。

"Stand by an engine" means

A."prepare to stop the engine"

B."assemble an engine on its bedplate"

C."make an engine ready for starting"

D."dismantle an engine"

正确答案：C

四川托普软件投资股份有限公司1月招聘面试题面试题面试官常问到的一些题目整理如下：问题 Q1： scrapy分为几个组成部分？分别有什么作用？可用的回答：分为5个部分； 1. Spiders(爬虫类) 2. Scrapy Engine(引擎) 3. Scheduler(调度器) 4. Downloader(下载器) 5. Item Pipeline(处理管道) 具体来说： Spiders:开发者自定义的一个类，用来解析网页并抓取指定url返回的内容。 Scrapy Engine:控制整个系统的数据处理流程，并进行事务处理的触发。 Scheduler：接收Engine发出的requests，并将这些requests放入到处理列队中，以便之后engine需要时再提供。 Download：抓取网页信息提供给engine，进而转发至Spiders。 Item Pipeline:负责处理Spiders类提取之后的数据。比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中问题 Q2：如何将数字转换为字符串？可用的回答：要将数字转换为字符串，请使用内置函数str（）。如果需要八进制或十六进制表示，请使用内置函数oct（）或hex（）问题 Q3：描述数组、链表、队列、堆栈的区别？可用的回答：数组与链表是数据存储方式的概念，数组在连续的空间中存储数据，而链表可以在非连续的空间中存储数据；队列和堆栈是描述数据存取方式的概念，队列是先进先出，而堆栈是后进先出；队列和堆栈可以用数组来实现，也可以用链表实现。问题 Q4：列举面向对象中带双下划线的魔术方法可用的回答： _doc_ 表示类的描述信息 _module_ 表示当前操作的对象在哪个模块 _class_ 表示当前操作的对象的类是什么 _init_ 构造方法，通过类创建对象时，自动触发执行 _new_负责创建一个类的对象 _del_ 析构方法，当对象在内存中被释放时，自动触发执行 _call_ 对象后面加括号，触发执行 _dict_ 类或对象中的所有成员 _str_如果一个类中定义了_str_方法，那么在打印对象时，默认输出该方法的返回问题 Q5：什么是粘包？ socket 中造成粘包的原因是什么？哪些情况会发生粘包现象？可用的回答：粘包：在接收数据时,一次性多接收了其它请求发送来的数据（即多包接收）。如：对方第一次发送hello，第二次发送world，在接收时，应该收两次，一次是hello，一次是world，但事实上是一次收到helloworld，一次收到空，这种现象叫粘包。原因：粘包问题主要还是因为接收方不知道消息之间的界限，不知道一次性提取多少字节的数据所造成的。什么情况会发生： 1、发送端需要等缓冲区满才发送出去，造成粘包发送数据时间间隔很短，数据很小，会合到一起，产生粘包 2、接收方不及时接收缓冲区的包，造成多个包接收客户端发送了一段数据，服务端只收了一小部分，服务端下次再收的时候还是从缓冲区拿上次遗留的数据，产生粘包解决方案：一个思路是发送之前，先打个招呼，告诉对方自己要发送的字节长度，这样对方可以根据长度判断什么时候终止接受注意：只有TCP有粘包现象，UDP永远不会粘包！问题 Q6：urllib 和 urllib2 的区别？可用的回答： urllib 和urllib2都是接受URL请求的相关模块，但是urllib2可以接受一个Request类的实例来设置URL请求的headers， urllib仅可以接受URL。urllib不可以伪装你的User-Agent字符串。 urllib提供urlencode()方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。问题 Q7：深拷贝和浅拷贝有什么区别？可用的回答：在创建新实例类型时使用浅拷贝，并保留在新实例中复制的值。浅拷贝用于复制引用指针，就像复制值一样。这些引用指向原始对象，并且在类的任何成员中所做的更改也将影响它的原始副本。浅拷贝允许更快地执行程序，它取决于所使用的数据的大小。深拷贝用于存储已复制的值。深拷贝不会将引用指针复制到对象。它引用一个对象，并存储一些其他对象指向的新对象。原始副本中所做的更改不会影响使用该对象的任何其他副本。由于为每个被调用的对象创建了某些副本，因此深拷贝会使程序的执行速度变慢。问题 Q8：什么是局域网和广域网？可用的回答：局域网：（Local Area Network，LAN），局域网是一个局部范围的计算计组，比如家庭网络就是一个小型的局域网，里面包含电脑、手机和平板等，他们共同连接到你家的路由器上。又比如学校的机房就是一个局域网，里面有几百几千台电脑，当机房无法上外网时，但是电脑之间仍可以通信，你们可以通过这个局域网来打CS 、玩红警。理论上，局域网是封闭的，并不可以上外网，可以只有两台电脑，也可以有上万台。广域网：（WAN，Wide Area Network），广域网的范围就比较大了，可以把你家和别人家、各个省、各个国家连接起来相互通信。广域网和局域网都是从范围的角度来划分的，广域网也可以看成是很多个局域网通过路由器等相互连接起来。问题 Q9：为何基于tcp协议的通信比基于udp协议的通信更可靠？可用的回答： TCP的可靠保证，是它的三次握手双向机制，这一机制保证校验了数据，保证了他的可靠性。而UDP就没有了，udp信息发出后,不验证是否到达对方,所以不可靠。不过UDP的发送速度是TCP比不了的，而且UDP的反应速度更快。问题 Q10：、isinstance作用以及应用场景？可用的回答： isinstance(obj, cls) 检查一个obj是否是cls的一个对象算法题面试官常问到的一些算法题目整理如下（大

网页抓取策略中，（）从起始网页开始选取其中一个URL 进入该网页，分析完该网页中的URL 后再选择其中一个URL 再进入，如此深入地抓取下去，直到处理完一条路线之后再处理下一条路线。

A.深度优先搜索策略
B.广度优先搜索策略
C.最佳优先搜索策略
D.复合优先搜索策略

答案：A

解析：

这是一个阅读理解题，实际上题干就是解释深度优先的概念。

---（）! ---Engine dead slow astern!

A、Dead slow astern
B、Engine slow astern
C、Engine half astern
D、Ready

正确答案:A

---Stand by engine! ---Stand by engine!（）

A、Engine stand by!
B、Finished with engine!
C、Engine by stand!
D、OK.

正确答案:A

---Ring off engine! ---Ring off engine! （）

A、Finished with engine!
B、Engine rung off!
C、Engine stand by!
D、Got it.

正确答案:B

---Finished with engine! ---Reply: Finished with engine! ---Report: （）.

A、Finished with engine
B、Engine finished
C、\
D、Well

正确答案:B

四川托普软件投资股份有限公司1月招聘面试题146道2020120

更多 “四川托普软件投资股份有限公司1月招聘面试题146道2020120” 相关考题

相关内容

最新试卷

热门试卷