图片关键字搜索的技术瓶颈
自2002年加入全景姚总就一直负责公司网站的整体技术研发工作,姚总坦言,全景网站自成立之初就将技术研发的重点之一放在图片关键字检索这一项目,几年来的不断探索和研发,全景的关键字研发团队需要克服来自不同方面的技术难题。
谈到关键字搜索,所有人都会想到百度或Google,不可否认,百度和Google依托数十亿的全球网页数据库,通过简单词语的模糊搜索,可以令用户瞬间搜索到与输入词语相关的各种文字信息。这种搜索虽然快捷便利,但是也存在很大弊端:百度和Google所依据搜索的“源”信息并非自身编辑而成,仅依靠图片所属的网页源文件。以一张“大象”的图片为例,如果在源文件地址上被人恶意篡改成“狮子”,那么当你搜索“狮子”的时候,这张大象的图片也会在搜索结果中出现,由此会造成大量的搜索信息失真,无法保证关键字搜索的准确性。
全景和百度、Google所涉及的领域不同,全景是完全依托于图片关键字搜索的专业图库,因此,这种图片关键字搜索的人性化变得尤为重要。以一个图片搜索为例,全景关键字的技术人员要解构图片,确保关键字能够准确的描述源图片,其次要理解用户的输入,进而通过检索技术帮助用户找到相关图片。
在这一看似简单的过程中,会出现很多处需要解决的难题:
首先,每张图片所涵盖的信息量都很丰富,而每个人的信息解读方式不同。图片公司通常采用人工设置或简单机器翻译关键字,这样一张图片在设置关键字的工作人员手中往往会丢失信息。
其次,汉语所特有的语言环境,导致过多的口语化语言。比如“婴儿”,可以有多种解释说法:“小孩”、“儿童”、“幼儿”、“孩童”等等…不同的表达信息在客户搜索的时候也会产生障碍。
再次,关键字宏观化或是细节化的设置都会有一定的差异性。姚总在阐述这点时,举了个典型案例,之前一位客户想搜寻“女人的后背”,但是录入关键字之后,却没有搜索结果,技术人员查询后发现,库中与“后背”相关的词语被阐释为“背影”、“背面”、“阴影”…而没有更为口语化的翻译,不同的文字形式其实都是在阐述一件事物,但是搜索结果却大相径庭。
全景关键字搜索的技术突破
全景图库目前拥有数百万张图片,独家代理世界范围内100多家著名图片品牌和数百位国内顶级专业摄影师的图片,拥有的五支摄影团队可以根据客户需要拍摄多种类型的创意图片。如此数量众多的图片,在全景网站如何通过关键字进行分类管理呢?据姚总介绍,全景的关键字搜索具体应用涉及到很多行业先进技术,研发团队需要根据不同情况寻求与之对应的解决技术,从而使全景关键字技术不断完善。
关键字搜索引擎主要涉及三方面的技术,一是“源”信息的标准处理,二是用户输入分析与处理,三是索引技术。
首先,要确保搜索准确性前提是确保图片“源”信息的准确。全景图片库的图片来源分为国内和国外两部分,国内创意图片由全景关键字中心的工作人员按照图库Keyword标准设定,然后由技术人员负责将其中文关键字通过全景特定技术翻译成准确的英文关键字。而由全景代理的国外创意图片在进入图库时已有英文的关键字,全景关键字的技术研发团队就需要将英文关键字转化为符合本土化标准的中文关键字。
其次,用户关键字输入分析与处理需要多种解析技术。
一,如何理解用户所表达的含义?研发团队现在采用的是“用户输入分析”技术,这项技术包括“合词”和“切词”两种功能,符合中国用户录入需求。在英文搜索的时候,只有加上引号,才能代表一个完整的词语。例如,你想搜东方人物,就必须录入:“Asian people”但是如果按照中国用户的搜索习惯,不加上引号,则变成“Asian”和“ people”,如按照这种方式搜索,也许您就会搜出一张亚洲象和欧洲人的合影…全景为了避免这种文化差异导致的失误出现,采用“合词”技术,按照中国人传统录入习惯,自动加引号,方便用户查询,而“切词”技术是指针对不同的网络用词,可以根据用户习惯适当进行切词处理,将短句分解成独立词语以方便用户搜索。
二,如何解决汉语中存在的语义关联问题?技术人员引入Wordnet技术,充分发挥汉语的“词语关联性”,使客户搜索词语与全景自身设置的词语产生关联,在保证客户搜索图片数量的同时,也保证了图片关键字搜索的准确性。
三,如何判别英文输入单词的准确性?全景在关键字录入程序中,添加了“拼写检查“这一功能,在用户录入英文关键字时,系统具备自动识别功能,可以即时对英文单词进行拼写正确与否的识别,以正确输入法录入关键字图库,方便用户查找。
四,如何节省用户搜索图片的时间?全景技术团队开发了支持中英双语搜索的新功能,在搜索过程中可以进行中英双语同时搜索,为中外创意人在图片搜索过程中节约了大量的中英翻译时间。
再次,就是不断完善的“搜索引擎”,全景通过不断完善自主开发的分布式搜索引擎技术,在海量图库中搜索只需要几毫秒的时间,避免了客户在盲目搜索图片时所消耗的不必要成本。
综上所述,与同行业的其他图片公司相比,全景中文搜索功能的最大优势就在于可以人性化的理解并表达用户的需求。其他图片公司基本上都是从英文通过同义词或歧义词的简单翻译转化成中文,例如“light box”,很多图片网站直译成灯箱,而在全景,你可以搜到“收藏夹”这样更专业更形象化的解释。而“瞌睡”、“孩童”这些中国人常用的词语在全景可以搜到近千张相关的图片,但是在其他全球性的图片网站,却搜不到任何相关的图片信息。这种符合本土设计师需求理念的关键字搜索标准得到了广大客户的好评。
智能搜索的全景展望
“我们的客户不是找图片,而是找创意。”姚总冷静地分析道:“如果全景所设立的关键字过于精确,则会在某种程度上限制客户的想象力,而我们面对的主要客户是创意人和媒体编辑,这些人的工作特质就是要充分发挥他们的想象力,因此,我们力求客户想在全景上得到一个点的收获,我们会给他一个以点为中心的圆圈作为他的搜索空间,而客户在这个圆圈中再次选择一个点的时候,我们会再以此为基础送给客户一个圆。如此反复,客户往往会收获更多创意和更多想象的空间。而这正是我们的出发点,让全景成为客户的创意在线工作平台。”
根据全景07年前期市场调研报告显示,在中国的创意人工作时间安排上,搜图工作占整体工作时间的50%-80%,在上百万张图中搜寻到他们自身需要的图片,这个难度好比大海捞针。全景目前投入大量精力设立的关键字研发团队目的就是要为客户节省搜图成本和时间,客户无论是在搜索全景自产图片还是国外服务公司的图片时都会快捷便利,更好的提高工作效率。据姚总透露,目前全景的技术研发团队在不断测试改进,相信在不久的将来,全景在图片关键字搜索领域会有更大突破。