相似性。页面和页面之间的对比。过去,公司不可避免地会在线分发传单进行广告宣传,并在传统媒体中传递大量信息和内容。覆盖范围小,成本高,转换率不高。现在情况已经改变。通过优化网站,可以一次覆盖所有内容。区域网络或国家网络花少量的钱做大事,谁能轻描淡写呢?
以下为网友布丁的回覆:
先一句话回覆:在与搜刮相干的基础手艺方面,百度间隔 Google 仍有很大的差别,但本日是不是还存在量级上的差别存疑。
开头先扯个不相干的范畴,苏联 1960 年代设备的 Mig-25 截击机,这是世界上第一款能飞双三(三倍音速,30000米升限)的战斗机。西方世界面临这变态的性能参数惊愕莫名,揣摸苏联在航空手艺上已周全逾越西方。直到别连科驾驶 Mig-25 潜逃西方,他们终究有时机打仗真机,才发明它运用的手艺实在没那麽先进,变态的性能目标都是用一般的手艺基础硬干上去的,飞机异常愚笨以致有“直线战斗机”的称呼,不幸的发起秘密真飞一次三倍音速落地就得报废。苏联的航空手艺并没有他们设想的这麽逆天。
2009年我在百度,面临 Google 公然的手艺材料和百度的内部体系,我起首想起的就是 Mig-25. 就跟这台战机一样,当时的百度,在中文搜刮结果质量的各项目标上,对照 Google 照样有上风。百度的工程师异常智慧,也异常勤奋,在某些点上也做得很细很精彩,然则在与搜刮相干的基础手艺上,百度照样周全落伍。百度的搜刮质量提高,有很大部份是依托人工做大批细緻的战略调解硬拉上去的。
用一般手艺飞上双三,Mig-25 自身是个了不得的工程造诣。下一代战机,不管是苏联的 Su-27 照样美国的 F-15, 以致四代机 F-22, 都没有能飞出双三来的,但这些下一代战机在手艺水准和团体性能上,无疑远胜 Mig-25, 这应该能算得上题主所说的量级差别。手艺的量级差别不能拿某个特定目标或孤例评价(Mig-25 还曾击落过 F/A-18 呢),也不能只比较某些手艺点上的好坏,而往往是决议于基础手艺程度。
在 2009 年,我能够很肯定地说百度搜刮相干的基础手艺对照 Google 有量级差别。据我相识,这些年百度在基础手艺方面提高很快,固然同时 Google 也在疾速提高。它们在本日是不是有量级的差别,我不确定。
下面列几个主要的而且公然材料较多的基础手艺:
大范围机群建立与治理。Google 的状况能够拜见《The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines, Second Edition》。 Google 具有世界上最大的盘算机集群,论机械数目的话能在量级上超过统统其他公司。同时,它有一整套自动化治理软件,以便工程师申请和运用这些硬件资本(大抵能够明白成一套 Amazon EC2)。就我的相识,现在在一般工程师运用机群硬件资本的轻易程度和能够运用的量上,百度照样远远不及。
如何摆脱百度人工干预的困扰
优化附件,对网站没有太大影响,但有可以提高网站的内容。各SEO优化人员的原因不同。目前SEO优化人数很多,但拥有SEO思维的人不多。事实上,有SEO思维的人才是合格的SEO人员。提到事故,相信大家都很清楚。SEO不仅仅是一种技术。技术只能让你入门,真正需要知道的是要有SEO思维。Seo思维包括每天思考,增加有效连接,具有一定的写作能力,保持冷静的心态。
大范围盘算与存储。Google 论文老三篇 GFS, MapReduce, BigTable 不再赘述,近来几年 Google 在这些方面的研发和提高没有阻滞甚至在加速。固然百度也在勤奋追逐,百度不仅运用 Hadoop, 而且基于 Hadoop 做了大批革新和扩大,并孝敬回 Hadoop 开源社区。百度在 SSD 存储手艺等方面也很有心得,比方 flash 存储方面近来中了的一篇 ASPLOS ’14 SDF: Software-Defined Flash for Web-Scale Internet Storage System.
机械进修和人工智能。被吹得神乎其神的 deep learning 和 Google Brain 等等。在 deep learning 这个相对较新的范畴,百度追逐的更快,程度也更靠近。
机群治理的手艺程度决议你能具有和有用运用若干硬件资本,大范围盘算与存储决议你能在这些硬件上做多大范围的事变 —— 而末了,搜刮引擎自身就是一套大范围机械进修体系。
在纯手艺以外,我想特别提一点极大影响手艺提高,而至少在 2009 年百度与 Google 差别庞大的要素:一般工程师所能运用的东西程度。我在 Google 以为最爽的事变是我能够很轻易取得大批的盘算资本,做之前没法设想的大范围数据剖析。要考证一个主意,我能够基于一整天的搜刮纪录做剖析,只需几分钟就可以获得结果(可检察:research.google.com/pubs/pub36632.html),举行调解和下一步剖析;而假如没有这套基础软件和能够随便运用的硬件资本,我大概得等一整天赋能有用果,或许只能剖析小范围的抽样数据。在我本身的学问和手艺程度稳定的前提下,Google 这套体系极大地提高了我的工作效率,让我能做到之前完整没法设想的事变。
我以为作为一个手艺人员,黑或许捧哪一个公司毫无意义,手艺的事变很直接的,身在哪一个公司都没法影响基础推断。还在百度的时刻,我就常常想,Mig-25 的故事是个很好的警示,人很轻易为相似“双三”如许的造诣自鸣得意,而对实打实的基础手艺差别置若罔闻,不图提高,那远景就相称风险了。幸亏据我所知的状况,百度可没有这麽不争气。
补充一个现实例子来申明差别手艺条件下两个公司干事思绪的区分。
批评中有朋侪提到百度的分词手艺,这确切是“百度更懂中文”的一个集中体现。百度昔时做分词的时刻很多是如许的:先从一个人工编辑好的字典入手下手,用这个字典跑一些网页,视察剖析裡面的 bad case —— 多是分词细致,或许是中文人名没分出来,然后就尝试依据中文语法规律到场划定规矩或增加词表处理这些 bad case, 云云来去,直到有惬意的结果。上线运用,发明有新的 bad case 就再研讨加划定规矩,固然也有自动流程发明和确认如“人艰不拆”之类的新词。
Google 做分词的话就是把问题算作一个几率问题:假如中文网页中哪些字常常一同涌现,那麽它们很有大概就是一个词。看哪些词背面会跟的地得,的地得背面有常跟哪些词,语法结构也就出来了。(详细的模子拜见吴军《数学之美》)。解题思绪就是把统统抓到的中文网页往 MapReduce 裡一丢,参数算出来就好了。评价分词质量的要领也很简朴,就拿新模子放到网页检索的模子裡,做个实验看质量有没提拔就行。这套要领结果之好,基础把中文分词做成了一个没有若干牵挂的简朴问题,而且基础不需要中文言语专家的介入(天然也没有谁更懂中文的问题)。同时这也就是 Google 做 Translate 的思绪。这裡面基础要领实在异常简朴,没什麽祕密可言,然则你得先有这麽多的网页数据,还得有大机群,有分佈盘算框架,另有可复用的模子……
我以为在手艺受限的条件下,人工微调优化结果是一个适当的产物思绪,但这个产物思绪会与手艺发展线路相互影响。关于长尾头部的一千个热词,完整能够用人工编辑的要领做出异常好的结果,而短期内革新通用的机械模子到达人工编辑的结果险些不大概。这时刻,人工调解大概会受勉励,而通用模子的手艺革新大概就得不到充足的注重 —— 虽然纵然以中国的人力本钱,对统统搜刮结果人工调优也绝无大概,但能搞定长尾头部也不错了不是?Google 的主流手艺思绪则是骨子裡不相信人工调解,什麽事变都非得弄出个自动通用可扩大的模子来不可,这类思绪大概一入手下手在那一千个热词上怎麽都比不过勤奋接地气的编辑,但经由过程积聚数据调解模子,假以时日,团体结果质量就会明显提拔 —— 我就是这麽看 2009 年时 Google 搜刮质量给我们的压力的。这类思绪在详细的产物运营上不一定对,不是大家都有 Google 的资本来花时间做通用手艺,但 Google 确切就在这类“手艺碾压统统”的(毛病?)道路上越走越快。
一些公司网站经常撰写高质量的原创文章,但是网站集仍然很差,关键字仍然没有排名。在许多情况下,这是由网站服务器引起的。该网站打开速度非常慢,通常无法打开。这时,内容经常被索引。它经常超时并且对搜索引擎非常不友好。自然,它将不包括网站并为他们提供关键字排名。因此,您必须选择国内知名的网站服务器服务提供商,并选择高质量的网站空间。小型网站不需要打开子域名称。大中型网站需要开设子域名称。如果不选择好子域名称和目录,搜索引擎在包含网站时很容易出现问题。通常,打开子域名称的站点目录和内容很多,两个目录之间的关联性较低。
花样作死之网站自杀式推广
本网站部分素材来源网络,如有侵犯,请联系删除!作者:wesipy,如若转载,请注明出处:http://www.kpxlt.com/archives/24564