感谢谷奥热心读者及哆啦迷 Binary 的翻译与投递!
Google为了使搜索更加简单易用,每天都在不停地进行着改进。去年一年中,包括搜索结果页面更新、菜谱搜索这些用户看得见的功能在内,共实施了500多项改进措施。今天介绍的是不易察觉的改进措施之一:“同义词系统”。
在日语中,平假名、片假名、汉字和拉丁字母等多种文字混用,对于同一个词有时会有多种不同的书写方式。Google 支持不同种文字之间及跨语言的同义词匹配。这是一个看似简单实则深奥的问题,初看之下似乎只要有一套类似日语输入法所使用的词库即可,但实际上想要在非人工干预的情况下正确的找到同义词并非易事。
举例来说,「しょうぶ」可能对应着“胜负”、“菖蒲”、“尚武”等多个不同的汉字词组,它们各自有着不同的意思,想要搜索的信息也各不相同。因此 Google 在您搜索“しょうぶ 儿童节”时候会显示与“菖蒲”相关的结果(日本儿童节有插菖蒲、洗菖蒲浴、喝菖蒲酒等习俗),搜索“しょうぶ 拍洋画”时候则会显示与“胜负”相关的结果。
涉及到外语的时候,其读音会因为习惯或语言的种类不同而出现多种不同的可能性,情况会更复杂一些。举例来说,以“-or”结尾的单词,如 Vector、Mirror 等,Vector 一词有「ベクトル」、「ベクタ」、「ベクター」等多种读法,而 Mirror 一词并非读作「ミロル」或「ミラ」,「ミラー」才是正确的读法。对于人名“Plato”(柏拉图),初看之下似乎是应该读作「プラト」或「プレート」,但实际上日语中最常见的读法是「プラトン」,其来源是希腊语的发音,由此可见词汇拼写所对应的读法的不规则性。
上面的截图就是“Plato 著作”的搜索结果。第一条就是关于「プラトン」的搜索结果,并将「プラトン」一词加粗显示,可见 Google 已经将“Plato”一词作为「プラトン」的相关内容来识别。
Google 在对大量网络数据进行了自动学习后,将获取到的知识用于实现这些复杂的书写变换。这些知识会随着新词的不断出现、新算法的不断开发而逐渐更新,使得 Google 可以更好的根据使用者的意图来筛选并返回结果。
同义词系统正在努力不断地改进,让搜索更加便捷。今后也欢迎您继续使用不断进步中的 Google 搜索。
作者:Google 日本软件工程师 山内 知昭、中島 貴裕
译者:Binary
小编试了下,「どらやき」的结果中确实包含了“铜锣烧”的各种写法,而且全部加粗显示了:
Related posts
- “Google 活用术”专题网站指导日本教育工作者充分利用 Google 服务
- 世界文化遗产“原子弹爆炸圆顶屋”内部 360° 街景公开
- Google 建立 Build the Memory 网站对比日本海啸前后的街景照片
- 日本 doodle:Doodle 4 Google 获胜作品
- 日本 doodle:日本画家横山大观诞辰 143 周年
- 日本 Google 又一力作:Chrome Music Mixer(音乐调音台)
- 日本 Google 创意广告:用 Google Images 购物试衣
- Google 测试 iGoogle 新界面
- 日本 doodle:日本探险家植村直己诞辰 70 周年
- Google 在新加坡、香港和台湾投资两亿美元兴建数据中心
转载请注明:文章转载自:谷奥——探寻谷歌的奥秘 [http://www.guao.hk]
本文标题:Google 日语同义词匹配系统详解
本文地址:http://www.guao.hk/posts/improved-synonym-matching-system-in-google-japanese-search.html
本文短网址:http://guao.cc/1Iw










google日本,一直做得很好,就拿翻译那里的~语音读日语,和读中文,就是2个不同的等级了,而且,google日语入力,那里,有一个在线的网络词库,连最新的~dorama,anime里面的人名,片名都能打词组.很人性化的...
呵呵,想想什么百度之流不也是进军日本了么?不知道那网站有这些功能么?还想进军国外,我呸~1
看到一大堆日文感到头疼 @_@
此可见词汇拼写所对应的读法的不规则性
soga
什么时候Google的语音识别搜索支持日语呢?