谷歌翻译 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Wed, 05 Oct 2022 09:08:31 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 谷歌翻译完美替代,这些app个个是谷歌强大对手! //www.otias-ub.com/archives/1501610.html Wed, 05 Oct 2022 09:08:31 +0000 //www.otias-ub.com/?p=1501610 日前,谷歌公司“因为使用率低”宣布停止向中国用户提供翻译服务,这标志着谷歌服务全部退出中国市场,消息一出,不少谷歌翻译的用户网友开始寻找谷歌的替代产品。今天,笔者盘点了以有道词典、腾讯翻译、百度翻译、金山词霸为代表的四款翻译“国货”app,无论从翻译的准确度、速度,还是翻译的专业性、多场景解决方案,与国外软件的水土不服形成了鲜明的对照,国产翻译软件早已赶超谷歌翻译,正在为国内众多学习者提供前所未有的便利与快捷。

网易有道词典:9亿用户领跑,实现学术场景全覆盖

作为有道的第一款学习类应用,国民级教育APP有道词典于2007年上线, 内容上,有道词典收录了《柯林斯英汉双解词典》《牛津英汉词典》等多部权威词典,覆盖3000多万词条、60万专业词汇,能满足从商务英语、GRE、托福、雅思到中小学课程的英语学习需要。技术上,网易公司自主研发的神经网络翻译(YNMT)技术,正是基于9亿海量用户数据和自主研发的AI技术,通过不断丰富学习内容和翻译功能,满足学习者在不同场景下的个性需求。

截至2021年12月,有道词典拥有超1亿月度活跃用户、累计用户超过9亿,成为词典翻译工具的领跑者。

今年6月8日正式上线的桌面翻译软件网易有道词典9,支持多达109种语言文本翻译,26种语言支持TTS发音,更是在翻译精准度、速度、专业性等方面得到了业界瞩目,实现了从传统文档翻译、图片翻译,到视频翻译、音频翻译,再到会议同传的多场景覆盖,同时,有道词典还提供学术检索、阅读、写作全流程服务,一站式解决搜、读、写论文难题,实现了学术场景的全覆盖。

值得重点提及的是,最新版本的有道词典还向全国大学生免费开放了文档翻译功能。只要是学信网认证的大学生(包括本硕博,不含中国留学生),均可免费使用这一“宝藏功能”,体验免费导出文档、不限翻译次数、保留原文排版等高阶权益。

百度翻译:机器同传媲美人声同传

走过十一个的年头的百度翻译同样具有翻译APP、翻译PC版、AI同传、开放平台等全面的产品矩阵。

从上线之初支持中、英两种语言互译,现已实现多种语言互译。在新闻、科技文献等领域翻译上,翻译准确度达到90%。

在翻译形式及模态层面,百度翻译融合自然语言处理、语音、计算机视觉等AI技术,从最初支持文本的单一模态翻译,扩展为语音翻译、拍照翻译、视频翻译等跨模态翻译,翻译场景不断丰富。

其中最典型的场景就是机器同传。百度“语义单元”驱动的机器同声传译模型,解决了翻译质量和同传时延难以兼顾的难题,翻译准确率超过80%,平均时间延迟3秒,媲美人类同传。

腾讯翻译君:边刷美剧边学英语

作为一家致力于社交、游戏、新闻和门户网站建设的多元化服务提供商,腾讯在自己的翻译服务系统“腾讯翻译君”中也融入了多元化因素,如语言学习、社交和实时翻译等,帮助用户在国外旅游、口语提升、社会交友等场景下自如沟通。

腾讯翻译君的操作界面简单易懂,首页由输入框、中间为跟读练习与打分、查询记录以及下边的语音翻译按钮所组成,支持英日韩俄法德等主流外语,以及马来语、印尼语、土耳其等一些小语种的翻译。

除了常见的支持“拍照翻译”和“同声传译”外,腾讯翻译君还支持“AR翻译”功能,也就是对摄像头识别到的外文进行实时识别、翻译并替换为翻译后的文字。 针对为学习英文的用户,腾讯翻译君更特地准备了“练听说”和“看世界”栏目,让用户可以边刷美剧边学英语,在英语达人分享的学习经验与教学视频中得到提高。

金山词霸:多端数据云端同步,多个设备可切换

这也是一款受用户欢迎的翻译app,软件收录了涵盖牛津词典、柯林斯高阶词典等55本词书,翻译的结果也非常靠谱。无论是要考试,还是出国旅游,都可以使用这款软件,将要翻译的句子上传或者拍照,系统会自动翻译出最佳结果。

]]>
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型 //www.otias-ub.com/archives/949361.html Sun, 13 Oct 2019 04:02:25 +0000 //www.otias-ub.com/?p=949361
由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。他们在 250 亿个的句子对上进行训练,参数量超过 500 亿。
在过去的几年里,由于神经机器翻译(NMT)的发展,机器翻译(MT)系统的质量得到了显著提升,打破了世界各地的语言障碍。但 NMT 的成功很大程度上要归功于有监督的训练数据。那么,数据较少甚至没有数据的语言该怎么办呢?多语言 NMT 是一种有效的解决方法,它有一种归纳偏见,即「来自一种语言的学习信号应该有助于提高其他语言的翻译质量」。
多语言机器翻译使用一种语言模型处理多种语言。数据匮乏语种多语言训练的成功已经应用于自动语言识别、文本转语音等系统。谷歌的研究者之前探索过扩展单个神经网络可以学习的语言数量,同时控制每种语言的训练数据量。但如果将所有限制因素都移除会发生什么?我们能否使用所有可用数据训练单个模型——即使这些数据的大小、脚本、复杂度和领域都各不相同。
在一篇名为「Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges」的论文和后续几篇论文中,谷歌的研究者们在超过 250 亿的句子对上训练了一个 NMT 模型,这些句子是 100 多种语言与英语的互译,参数量超过 500 亿。他们得到了一种大规模多语言、大规模神经机器翻译方法 M4,在数据丰富和匮乏的语言中都实现了显著的性能提升,可以轻松适应单个领域/语言,同时能够有效应用于跨语言下游迁移任务。
大规模多语言机器翻译
尽管跨语言对数据倾斜是 NMT 任务中的一大挑战,但这种倾斜也为研究迁移创造了一种理想情景,在一种语言上训练得到的信息可以应用到其他语言的翻译中。法语、德语、西班牙语等数据丰富的语言占据分布的一端,提供了数十亿的平行语料;约鲁巴语、信德语、夏威夷语等数据匮乏的语言占据分布的另一端,只有几万的语料。

所有语言对的数据分布(取对数)和在每个特定语言对上训练得到的双语基线的相对翻译质量(BLEU 分数)。
使用所有可用数据(来自 103 种语言的 250 亿个样本)训练之后,研究者观察到,数据匮乏语言有着强烈的正向迁移倾向,30 多种语言的翻译质量得到了显著提高,数据分布尾部的 BLEU 分数平均提高了 5 分。效果是已知的,但却非常鼓舞人心,因为比较是在双语基线(即只在特定语言对上训练得到的模型)和单个多语言模型之间进行的,后者拥有类似于单个双语模型的表征能力。这一发现表明,大规模多语言模型可以有效泛化,而且能够捕捉大量语言之间的表征相似性。

单个大规模多语言模型与双语基线模型之间的翻译质量对比。
在一篇名为「Investigating Multilingual NMT Representations at Scale」的 EMNLP 2019 论文中,谷歌的研究者比较了多语言模型在多种语言中的表征能力。他们发现,多语言模型无需外部限制就能学习在语言学上相似的语言的共享表征,验证了长期以来利用这些相似性的直觉和实验结果。
在「Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation」一文中,研究者进一步证明了这些学习到的表征在下游任务中跨语言迁移的有效性。

所有 103 种语言编码表征聚类的可视化,基于表征相似性。不同的颜色代表不同的语系。
构建大规模神经网络
在增加数据匮乏的语种数量之后,数据丰富的语种翻译质量开始下降。这种下降在多任务设置中可以被观察到,由任务间的竞争和迁移的单向性引起(即从数据丰富的语言到数据匮乏的语言)。研究人员探索了能够更好地学习和实现能力控制的算法,以此来解决这种负迁移问题。在此过程中,他们还通过增加神经网络模型的参数量来提高其表征能力,以此来提高数据丰富语言的翻译质量。
提高神经网络的能力还有其他几种方法,包括添加层数、增加隐藏表征的宽度等。为了训练更深的翻译模型,研究者利用 GPipe 来训练 128 层、参数超过 60 亿的 Transformer。模型能力的提高使得所有语言的翻译质量都得到了显著提升,BLEU 分数平均提高了 5 分。他们还研究了深度网络的其他性质,包括深度-宽度权衡、可训练性难题以及将 transformer 扩展到 1500 多层、840 亿参数的设计选择等。
尽管扩展深度是提高模型能力的一种方法,探索能够利用问题多任务特性的架构也是一种非常可行的补充方法。研究者通过用稀疏门控专家混合层(sparsely-gated mixture of experts)替代原始的前馈层修改 transformer 的架构,显著提高了模型能力,使得我们可以成功地训练和传递 500 亿参数,从而进一步提高了翻译质量。

与 103 个双语翻译基准相比,谷歌的新方法在单个多语言模型上提高了容量(参数量),进而提高了翻译质量。
让 M4 模型实用化
对于每个语言的领域或迁移任务来说,训练大型模型,花费大量算力非常不经济。谷歌提出的方法通过使用容量可调层使新模型适应特定的语言或领域,无需更改原始模型,使得这些模型变得更加实用。
展望
有研究显示,到 21 世纪末,全球至少有 7000 种目前正在使用的语言将会不复存在。多语言机器翻译系统可以拯救这些语言吗?谷歌认为,M4 是通向另外 1000 种语言翻译的基石。从这类多语言模型开始,即使没有平行语料,我们也可以轻松地将机器翻译扩展到新的语言、领域和下游任务中去。在通用机器翻译的方向上,很多有希望的解决方案似乎是跨领域的,多语言 NMT 正在成为多任务学习、元学习、深层网络训练等机器学习技术的理想测试平台。
参考链接:
https://ai.googleblog.com/2019/10/exploring-massively-multilingual.html
]]>
谷歌翻译现每天为2亿用户提供10亿次翻译服务 //www.otias-ub.com/archives/115907.html Sun, 19 May 2013 09:08:41 +0000 //www.otias-ub.com/?p=115907 谷歌在本周四举办的开发者大会上披露,旗下的翻译平台每天为2亿用户提供10亿次翻译服务。一般情况下,谷歌是不怎么会跟公众分享谷歌翻译的一些具体使用数据。不过,作为谷歌翻译前端与移动工程师的Josh Estelle还是在这次的大会上公布了以上这组数据。

谷歌翻译现每天为2亿用户提供10亿次翻译服务

据悉,Estelle已经为谷歌翻译工作了7年时间。他指出,谷歌翻译平台的92%用户都是来自美国之外的国家。现在,这个服务平台已经对支持了71种语言。而谷歌翻译处理过的文本数量甚至要比上百万本书籍所包含的内容还要多。

Estelle还指出,现在谷歌翻译增长最快的领域就是移动客户端。

谷歌翻译现每天为2亿用户提供10亿次翻译服务

另外,Estelle还列出了谷歌翻译接下来要做的事项:加入更多的语言;提高更上乘的翻译质量;渗透到更多区域;提供实时通信功能。

谷歌翻译现每天为2亿用户提供10亿次翻译服务

]]>