400-1866-762

宜搜手机搜索腾云海,分层存储方案出至强

发布时间:2015-01-07
云海麒麟助力宜搜科技加速搜索引擎

自2000年左右初试啼声以来,中国的互联网产业正在迎来第二个巨大的发展契机。在层出不穷的商业模式创新带动之下,在拥有雄厚实力和用户基础的BAT引领之下,在创新的公有云技术的支持之下,越来越多拥有创新想法的互联网企业得到了比以往更好的发展机遇。


而对于互联网行业而言,作为最基础生产资料的IT基础架构,对于企业开展业务的重要性要远远大于任何一个行业。因此对包括服务器、存储和网络在内的IT基础架构,互联网企业投入的关注也要高于绝大多数的行业。


与一般互联网企业相比,移动互联网由于应用本身的规模相对于PC端应用更小、更简单,基于移动平台提供服务的互联网企业对于IT基础架构的需求也有着比较明显的差异。在移动领域,初创的互联网服务商选择公有云平台服务,以减少IT管理压力的比重要显著更高。而那些在移动互联网服务领域已经拥有相当业务基础,需要依托自己的数据中心来开展业务的互联网服务商而言,更简单、更易用,在配置方面更为标准化,能更便利地实现横向扩充以应对快速增长的业务需求的IT基础架构,更容易受到IT主管们的青睐。


成立于2005年的宜搜公司就是专注于移动市场的互联网服务商中一个典型的代表。成立九年以来,宜搜公司的IT基础架构规模随着业务的不断增长,而在2007、2009和2011年有过3次大规模的扩张,目前公司数据中心中整体的服务器数量超过3000台。其主要业务来自不同类型的每天数亿次以上的搜索请求,以及手游等其他业务。


图片和小说等基于移动端的内容搜索,是移动端手机搜索中一个重要的功能。以宜搜提供的图片搜索为例,其主要针对手机用户提供适合手机观看的精品图片,目前资源总量超过数亿张,其中包括jpg,gif等多种图片格式。‍而在图片搜索系统的最近一次更新中,宜搜采用了来自深圳云海麒麟公司提供的存储服务器和缓存服务器作为承载整个系统的解决方案,并实现了整体搜索性能的较大提升。


宜搜科技首席技术官吕晋介绍,公司与云海麒麟之间的合作关系开始于2013年底,而在使用云海麒麟服务器的半年多时间内,宜搜对这一新品牌提供的服务器质量和可靠性也给予了充分的肯定。


在服务器圈子中,成立于2013年11月的云海麒麟是一家全新的公司。公司产品总监李增光介绍,为互联网公司等少数几个行业提供专门定制的IT基础架构,是公司在业务上最为主要的定位。“在美国,有很多小的服务器厂商专门为一到两个行业,甚至一两个用户专门做定制化的服务器产品,做得很专业、很精致。我觉得这也是我们可以学习的地sa方。”他介绍,“我们公司也是按照这个思路来发展,成立半年多以来,围绕互联网、安防监控、信息安全等重要的领域,我们已经与客户形成了有效的互动,完善了从塔式到机架式,到四路、八路服务器再到存储在内的产品线,在全国11个地方建立了办事处,并和英特尔这样的上游厂商建立了良好的合作关系。”


快速的响应和部署,是互联网行业最大的特点,而在移动互联网行业中,则更是将这种“天下武功,唯快不破”的特点发挥到了极致。传统互联网行业之中,人与PC每天互动的时间是有限的,但在移动时代到来之后,人与智能手机、平板电脑之间的互动时间几乎是除了睡觉之外的所有时间。在新技术、新理念引入上落后别人一步,就会丧失发展的先机。因此在IT基础架构的部署方面,IT基础架构厂商需要提供标准化与定制化结合的解决方案,一方面为移动互联网服务商迅速敏捷的业务变化提供支持,另一方面又要保证能够满足移动产业随时的创新产生的对IT基础架构个性化的需求。


在宜搜公司,每天基于移动平台的内容搜索需求以PB级计算,对于后台存储的量级要求非常高。但是在海量的搜索内容中,可能只有1%的数据是每天必须被用到或者访问的,剩下的绝大部分都是冷数据,可能会几天甚至一两个月之内都不会有用户访问一次。


作为典型的移动互联网搜索类应用,宜搜图片搜索需要一套对数据进行有效分层存储的大型缓存机制。如果所有数据都存储在磁盘中进行读写,每天数以亿计的搜索请求之下,性能难免会打折扣。因此采用固态盘建立缓存服务器存储热数据,将冷数据存储在低成本的SATA接口硬盘中,从性价比方面考虑是最为合适的解决方案。


云海麒麟为宜搜提供的解决方案,就是由YH-5212S:2U12盘位SATA硬盘,配备至强E5-2609或2620 v2的存储服务器,加上YH-5210:2U8盘位,配备英特尔至强E5-2630或2640 v2处理器以及英特尔企业级固态盘的缓存服务器组成。在存储高热点数据的环境中,云海麒麟提供配备英特尔PCI-E接口固态盘的解决方案,为宜搜的搜索服务在基础架构上提供最强性能的支持。


在服务器的网络接口方面,出于总体成本考虑,云海麒麟为宜搜内容搜索系统配备了基于英特尔千兆网卡的解决方案。但李增光介绍,在英特尔提供的优化指导和技术支持之下,云海麒麟在CPU核心数和网卡队列之间的匹配等方面,已经开展了许多的调优工作,充分发挥出了千兆网络应有的性能。“如果没有来自上游厂商的支持,单凭我们是无法充分发挥出现有解决方案的全部潜力的。”他表示。


在分层存储领域,许多专门的存储厂商都能提供完整的解决方案,但在吕晋看来,这些解决方案的成本过高,而作为其重要卖点的高可靠性存储也不是移动互联网行业最为根本的需求。“我们存储的数据规模比较大,而且由于每天互联网上的数据都在变化,对数据更新的需求也是比较快的。”吕晋说,“我们的数据不像银行、政府机关存储的数据那样,需要长期稳定的保留,因此也不需要对数据绝对不能丢失的保障。因此,我们采用分布式架构进行数据存储,相比起低成本和高效率,实施、维护过程中的易用性等关键因素,数据本身在可靠性方面的小问题并不是我们关注的重点。”


在通过缓存服务器方式实现分层存储的初期,宜搜也采用过非英特尔固态盘的解决方案进行过测试,但发现要么是效果并不理想,要么是成本过高而效益无法体现。“采用英特尔至强处理器结合英特尔固态盘的解决方案,在性价比和稳定性方面都能比较符合我们的期望。而英特尔架构标准化的配置也会比较顺畅,我们在整个解决方案的部署过程之中都非常顺利,没有遇到过预料之外的问题。这对于速度就是一切的互联网行业来说是非常重要的。”


“我们在早期使用过一些基于其他品牌的服务器产品,经过几次更新换代,现在采用的全部都是基于英特尔架构的产品。”吕晋介绍,“无论是从架构的成熟度、稳定性、计算能力,还是从整个解决方案的性价比方面考虑,基于英特尔架构的服务器和存储产品都是互联网行业更好的选择。”


由于云海麒麟公司的成立正好赶上英特尔至强v2处理器的推出,在公司成立初期,主推的服务器就已经是基于英特尔至强v2的产品,在今年2月开始正式对宜搜供货时,提供的旧已经全部是基于英特尔至强v2的设备。而至强v2在性能上相较于前一代产品的提升,也为云海麒麟和宜搜双方留下了非常深刻的印象。


“一个典型的例子是从去年11月,我们就开始用E5 v2给宜搜做测试,将E5-2620提升到E5-2620 v2,两代产品的功耗差不多,但要满足同样的性能需求,现在只需要60%左右数量的处理器就可以,单个CPU的性能提升了三四成以上。”李增光说,“在这种情况下,宜搜不需要进行大规模的系统扩容,只需要将现有的设备进行更新,就足够满足日益增长的业务对于IT基础架构的需求。”


而宜搜在项目中为新生的云海麒麟公司提供的大力配合,也同样给李增光留下了深刻的印象。在项目初期用于测试的样机方面,宜搜主动提出采购一半的样机,而云海麒麟提供另一半样机,开展为期三四个月的测试工作。“在研发测试阶段就花钱买样机的,我们以前真的很少碰到过。”李增光表示,“这对于我们初创阶段的企业而言,的确是很大的帮助。”


或许,云海麒麟提供的服务器产品的性能,以及为宜搜打造定制化产品的诚意,是宜搜以友好姿态与云海麒麟合作的重要原因。在三次大规模的服务器扩充完成之后,宜搜的业务走上稳定发展的轨道,加上虚拟化技术的发展,使得服务器规模的大规模提升不再有必要。但在吕晋看来,计算能力的提升仍旧是宜搜未来业务发展方向上会比较关注的一个重点问题。


在宜搜目前更为关注的业务领域,如通过Hadoop集群实现的数据分析和挖掘,以及以语音方式实现的移动搜索等领域,都需要更为强大的计算能力。“我们期待英特尔在未来能一如既往地在计算能力方面不断创新,为互联网行业提供更优秀的计算工具。”吕晋表示。


而云海麒麟也对双方未来进一步的合作和创新给予了充分的期待。在李增光看来,目前用于存储冷数据的2U12存储服务器如果采用异形主板,还有机会提供更高的存储密度,而对冷数据和热数据进行更为高效的分层存储上,目前宜搜采用的解决方案还有更多优化的机会。“基于不断进步的英特尔数据中心解决方案,我们也会在为改善互联网客户使用体验的道路上不断创新。”他表示。
原文阅读:http://www.spn.com.cn/news/20140711/45397.html