宁波GQY视讯股份有限公司12月招聘面试题125道20201219

当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapygenspider的第二个参数直接输入" 163.com"就可以了()

此题为判断题(对,错)。


正确答案:错


在Scrapy工程的settings.py文件中,哪个配置项,如果设置为True,那么Scrapy就会自动跳过网站不允许爬取的内容()

A.ROBOTSTXT_OBEY

B.ROBOTSTXT_JUDGE

C.ROBOTSTXT

D.ROBOTSTXT_IF


正确答案:A


Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。()

此题为判断题(对,错)。


参考答案:对


静态网页中除了有html代码之外,还有程序代码。()

此题为判断题(对,错)。


正确答案:正确


关于静态网页,以下说法不正确的是()。

A.如果要修改静态网页,必须修改源代码

B.后缀为.htm、.html的网页是静态网页

C.静态网页文件里没有程序代码,只有HTML标记

D.静态网页可以根据用户的需要而改变


正确答案:D


宁波GQY视讯股份有限公司12月招聘面试题面试题面试官常问到的一些题目整理如下:问题 Q1:什么是Python中的单元测试?可用的回答 :它支持共享设置,自动化测试,测试关闭代码,将测试聚合到集合等。包括unittest,pytest等框架问题 Q2:如果让你来防范网站爬虫,你应该怎么来提高爬取的难度?可用的回答 : 1. 判断headers的User-Agent; 2. 检测同一个IP的访问频率; 3. 数据通过Ajax获取; 4. 爬取行为是对页面的源文件爬取,如果要爬取静态网页的html代码,可以使用jquery去模仿写html。 问题 Q3:json序列化时,默认遇到中文会转换成unicode,如果想要保留中文怎么办?可用的回答 :json.dumps函数方法中加上参数 ensure_ascii = False问题 Q4:如何跨模块共享全局变量?可用的回答 :要在单个程序中跨模块共享全局变量,请创建一个特殊模块。在应用程序的所有模块中导入配置模块。该模块将作为跨模块的全局变量提供。问题 Q5:什么是Python pass?可用的回答 :pass意味着,无操作的Python语句,或者换句话说,它是复合语句中的占位符,其中应该留有空白,并且不必在那里写入任何内容。问题 Q6:TCP和UDP的区别?可用的回答 : TCP与UDP基本区别 1. 基于连接与无连接 2. TCP要求系统资源较多,UDP较少 3. UDP程序结构较简单 4. 字节流模式(TCP)与数据报模式(UDP); 5. TCP保证数据正确性,UDP可能丢包 6. TCP保证数据顺序,UDP不保证 具体编程时的区别 1.socket()的参数不同 2.UDP Server不需要调用listen和accept 3.UDP收发数据用sendto/recvfrom函数 4.TCP:地址信息在connect/accept时确定 5.UDP:在sendto/recvfrom函数中每次均 需指定地址信息 6.UDP:shutdown函数无效 问题 Q7:你常用的mysql引擎有哪些?各引擎间有什么区别?可用的回答 : 主要 MyISAM 与 InnoDB 两个引擎,其主要区别如下: 一、 InnoDB 支持事务,MyISAM 不支持,这一点是非常之重要。 事务是一种高级的处理方式,如在一些列增删改中只要哪个出错还可以回滚还原,而 MyISAM就不可以了; 二、 MyISAM 适合查询以及插入为主的应用,InnoDB 适合频繁修改以及涉及到安全性较高的应用; 三、 InnoDB 支持外键,MyISAM 不支持; 四、 MyISAM 是默认引擎,InnoDB 需要指定; 五、 InnoDB 不支持 FULLTEXT 类型的索引; 六、 InnoDB 中不保存表的行数,如 select count(*) from table 时,InnoDB; 需要扫描一遍整个表来计算有多少行,但是 MyISAM 只要简单的读出保存好的行数即可。 注意的是,当 count(*)语句包含 where 条件时 MyISAM 也需要扫描整个表; 七、 对于自增长的字段,InnoDB 中必须包含只有该字段的索引,但是在 MyISAM 表中可以和其他字段一起建立联合索引; 八、 清空整个表时,InnoDB 是一行一行的删除,效率非常慢。MyISAM 则会重建表; 九、 InnoDB 支持行锁(某些情况下还是锁整表,如 update table set a=1 where user like %lee% 问题 Q8:如何将数字转换为字符串?可用的回答 :要将数字转换为字符串,请使用内置函数str()。如果需要八进制或十六进制表示,请使用内置函数oct()或hex()问题 Q9:如何将值添加到python数组?可用的回答 :可以使用append(),extend()和insert(i,x)函数将元素添加到数组中。问题 Q10:描述数组、链表、队列、堆栈的区别?可用的回答 : 数组与链表是数据存储方式的概念,数组在连续的空间中存储数据,而链表可以在非连续的空间中存储数据; 队列和堆栈是描述数据存取方式的概念,队列是先进先出,而堆栈是后进先出; 队列和堆栈可以用数组来实现,也可以用链表实现。 算法题面试官常问到的一些算法题目整理如下(大概率会机考):算题题 A1:合并K个已排序过的链表题目描述如下:Merge k sorted linked lists and return it as one sorted list. Analyze and describe its complexity.Example:Input: 1-4-5, 1-3-4, 2-6Output: 1-1-2-3-4-4-5-6合并 k 个有序链表。用了最小堆:把所有的链表节点入堆,然后出堆形成新的链表即可。依然依靠了内置模块,待自己书写堆。测试地址:https:/ ListNode(object):# def _init_(self, x):# self.val = x# self.next = Noneimport heapqclass Solution(object): def mergeKLists(self, lists): :type lists: ListListNode :rtype: ListNode a = heapq.heapify(a) for i in lists: while i: heapq.heappush(a, i.val) i = i.next if not a: return None root = ListNode(heapq.heappop(a) head = root while a: root.next = ListNode

使用Hertrix爬取网页时建议使用()模式。

A、Mirror

B、KW3

C、ARC

D、TXT


参考答案:A


配置了Hertrix爬取设置后,在()模块可以新建任务并运行。

A、Logs

B、Jobs

C、Reports

D、Setup


参考答案:B


配置Hertrix的爬取设置是在()模块。

A、Logs

B、Help

C、Profiles

D、Reports


参考答案:C


整站采集的步骤一般是()。

A、匹配href连接地址;与原本地址拼接;读取网页中的A标签;找到关联网页并爬取

B、读取网页中的A标签;匹配href连接地址;与原本地址拼接;找到关联网页并爬取

C、找到关联网页并爬取;读取网页中的A标签;与原本地址拼接;匹配href连接地址

D、找到关联网页并爬取;与原本地址拼接;匹配href连接地址;读取网页中的A标签


参考答案:B


网站链接的作用是整合网页的路径,在方便用户浏览网页的同时,为搜索引擎提供爬取网页的通道。()

此题为判断题(对,错)。


参考答案:正确

更多 “宁波GQY视讯股份有限公司12月招聘面试题125道20201219” 相关考题
考题 小王每天到学校要爬一段有8阶的楼梯,他每次可以任跨1阶或2阶或3阶。例如,小王可以先跨3阶,再跨1阶,再跨2阶。试问小王总共有多少种方法爬这段楼梯?( ) A. 24 B. 44 C. 81 D. 51 答案:D解析:

考题 判断题财务报表的数据只来源于账务处理模块,并且取数要通过函数实现。A 对B 错正确答案:错解析:此题前半句话错误,后半句话正确。会计报表数据的来源主要包括手工录入、来源于报表管理模块其他报表、来源于系统内其他模块;取自于报表的数据又可以分为从本表取数和从其他报表的表页取数,但这些取数都需要通过函数实现。

考题 单选题下面关于函数的说法,错误的是()。A 函数可以减少代码的重复,使得程序更加模块化B 在不同的函数中可以使用相同名字的变量C 调用函数时,传入参数的顺序和函数定义时的顺序可以不同D 函数体中如果没有return语句,也会返回一个None值正确答案:C解析:暂无解析

考题 奶牛,产后70d左右,出现发情行为,并且无规律、长时间、连续性地发情,偶尔接受其他牛爬跨,也经常试图爬跨其他母牛,寻找接近发情或正在发情的母牛爬跨。此病例最可能的诊断是()A、传染病B、慢性消耗性疾病C、营养不良D、卵泡囊肿E、持久黄体正确答案:D

考题 多选题报表变动表元的数据来源主要有以下()几个方面的途径。A从账务处理模块中取数B从其他会计核算模块中取数C从会计报表自身取数D从外部取数正确答案:A,B解析:暂无解析

考题 单选题下列动态网页和静态网页的根本*区别描述错误的是()。A 静态网页服务器端返回的HTML文件是事先存储好的B 动态网页服务器端返回的HTML文件是程序生成C 静态网页文件里只有HTML标记,没有程序代码D 动态网页中只有程序,不能有HTML代码正确答案:D解析:暂无解析

考题 避雷器出厂试验外观验收中,底座应使用()绝缘底座,机械强度应满足载荷要求。A、成套的大爬距B、成套的小爬距C、单个的大爬距D、单个的小爬距正确答案:C

考题 下列关于AJAX说法不正确的是:()A、定义JavaScript函数时可以不写函数名B、定义JavaScript函数要明确返回类型C、JavaScript函数可以返回数组D、Ajax中XMLHttpRequest对象中的open方法第三个参数如果为true表示异步,false为同步正确答案:B

考题 下面()是可以通过输入HTML代码的形式编辑内容。A、店铺招牌模块B、宝贝推荐模块C、自定义区模块D、充值中心模块正确答案:A,C

考题 在Access中,如果数据不常更改且Web应用程序不需要窗体时,应使用( )。A.静态HTML格式B.动态HTML格式C.静态或动态HTML格式D.以上均不正确正确答案:A