0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英文胜在口语,中文胜在书面语,谁能成为AI的母语?

如意 来源:今日头条 作者:猴军集 2020-10-19 14:18 次阅读

人工智能是当前很热门的技术,各国都在投入资金和人力进行研究。谁错过了人工智能,谁就丢掉了未来。

语言文字在人工智能中占有非常重要的地位,它是人和人工智能交互的工具,人工智能只有准确理解语言文字才能做出准确应对,才能表现出高智商。今天就谈谈中文和英文是不是优秀的人工智能语言,以及未来前景。

一、语音识别

虽然我不想承认,但英文语音识别确实比中文更准确、高效。

英文由26个字母构成,逻辑结构更简单,发音以字母为基础,音标和音标区之间区分比较明显,只要说的不是很快,AI能比较容易、准确识别每一个字母,加上同音单词比较少,所以英文的语音识别效率领先中文许多。

中文发音则要复杂的多。汉语拼音有23个声母,6个单韵母,18个复韵母,还有16个整体认读音节,整套方案共63个发音元素。除此之外,汉语还有四种音调,加上种类繁多的方言,发音不准的话,非常影响AI识别。

AI在进行中文识别的时候,需要先进行发音识别,再根据单词进行汉字判断,识别效率低于英文,识别错误率也高于英文。

语音识别,英文胜。

二、文字识别

到文字识别环节,我们终于可以扬眉吐气了,中文文字识别的效率和准确度比英文更胜一筹。

中文有几个特点,让AI识别更高效:

1、汉字信息密度高,更少的字数可以承载更多的信息,中文文章永远比英文短,综合来看,中文信息密度比英文高37.5%。

2、中文以汉字为单位,可以灵活排列,横竖都可以,而英文是线性文字,只能横排,竖排、错乱排列的识别效率会骤降!

3、汉字独立表意能力强。比如“他去吃早饭”,你看一个字就能多明白一个字的意思。而英文“He went to have breakfast”,你即使看到“have”这个词,你依然不明大概的意思,只有到“breakfast”你才知道原来have是吃,went to是去,整句是去吃早饭。英文表意比较依赖“短语”,甚至整句,不看完整句话,你往往不能知道句意。这就给AI识别造成了难度,因为AI跳跃识别能力较差。

文字识别,中文胜。

三、同音字词

中文发展人工智能比较大的障碍就是同音字词现象!比如,他姓zhang,到底是“张”还是“章”呢?如果是口语的话,还要补一句弓长张,或立早章。中文里有多少同音字、同音词,很难准确的统计。同音字词也是英语使用者攻击中文表意不清比较大的借口。

英语虽然也有同音字,如right正确的、write写字;meet遇见、meat 肉;hole 洞穴、whole 全部的;pear梨子、pair双;flower花、flour面粉等,但英语同音字词数量远比中文同音词数量少。英语是通过造更多单词的方法,来减少同音词现象的。

AI现在不能准确处理多音字,出错在所难免。难道为了AI准确,人类只能通过语言文字改革消灭多音字词?这工程也太大了,人类也很难适应这么大的改革!

同音字词,英文胜。

四、多义字词

一词多义,是每种成熟语言都难免的,世间万事万物这么多,情感这复杂,如果每个词汇只表达一个准确的意思,那几百万字词都收不住。无论是中文还是英文,一个字词不会只表达一个意思,通常有很多意思,有时候区别还很大!

比如“close”,其意思非常多:关闭、合拢、合上、不开放、(使)关门、关闭(一段时间)、结束、终结、接近、几乎(处于某种状态)、可能(快要做某事)、亲密的、密切的、接近、靠近、不远地、死胡同、断头路、大教堂所属的周围场地及建筑物等。

现在人工智通过上下文识别词义的能力还比较弱,遇到多义词的时候经常出错,这也是人工智能发展的难关。

多义字词,中文和英文彼此彼此。

五、整段识别

让人工智能翻译一个短句,一句话,其实没多大意义,实用价值也不高,只有具备整段文字识别,才有实用价值。让我们以中英文互译来考察AI对中文和英文的识别能力了!

原文如下:

“Things that trend in these two countries are insanely different. For example: knowledge-basedcontent is extremely popular in China, and less so in the U.S. Also, this was wild to me: thosecreators that did the most dance videos in China are users born in the 60s (!!), whereas in theUS, it seems that it‘s mostly teenagers who are creating the dances,” she wrote.

她写道:“这两个国家的趋势截然不同,比如:知识性内容在中国很流行,但在美国稍差一些。而且,这一点对我来说很疯狂:中国最喜欢拍舞蹈视频的是60后(!!),但在美国,好像是年轻人最喜欢拍舞蹈视频。”

AI将“英文原文”翻译成中文如下:

“这两个国家的趋势截然不同。例如:以知识为基础的内容在中国非常受欢迎,而在美国却很少。此外,这对我来说很疯狂:在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户,而在美国,似乎是大多数年轻人在创作舞蹈。”她写道。

有一句失真比较严重:“在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户。”

这句话的英文原文是: “those creators that did the most dance videos in China are users born in the 60s ”。这是一句英语长句,词序比较复杂,又夹杂了乱七八糟的介词,导致人工智能的大脑错乱,没能准确识别!

这个英文识别错误很有典型性,暴露了英文在语法上、词序上太过复杂的弊端。如果是翻译更复杂的英语长句,AI将束手无策!这也是每个表音文字的弱点!

AI将“中文原文”翻译成英文如下:

“The trends in these two countries are quite different. For example, intellectual content is very popular in China, but a bit worse in the United States. Moreover, this is crazy to me: China’s favorite dance video is born in the 60s (! !), but in the United States, it seems that young people like to shoot dance videos the most,” she wrote.

中文翻译非常精准,和原文在表意上几乎没有任何差别,如实还原了原文的意思!可见,在整段话、整篇文章的识别上,中文比英文更有优势!

中文是由一个个汉字构成,长句很少,语法简单,词序简单,在语句结构上比线性的英语简单的多,更有利于AI识别。

六、谁才是人工智能的未来?

在人工智能领域,英文胜在口语,中文胜在书面语,各有所长,谁能成为AI的母语还言之过早。但在比较复杂的内容表达上,AI对中文的识别领先英文,所以我更看好中文的未来。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30998

    浏览量

    269328
  • 语音识别
    +关注

    关注

    38

    文章

    1742

    浏览量

    112695
  • 语言
    +关注

    关注

    1

    文章

    97

    浏览量

    24258
收藏 人收藏

    评论

    相关推荐

    把握关键节点,美格智能持续推动端侧AI规模化拓展

    当前,AI大模型走向端侧已经是大势所趋,端侧AI的发展将推动人工智能成为影响世界的第四次工业革命。与传统的云端大模型相比,端侧大模型拥有更小的参数体量和更垂直的训练数据。对于终端产品而言,端侧
    的头像 发表于 11-26 01:00 162次阅读
    把握关键节点,美格智能持续推动端侧<b class='flag-5'>AI</b>规模化拓展

    薄膜发电为什么不能成为主流

    薄膜发电作为一种利用薄膜太阳能电池将太阳能直接转换为电能的技术,虽然具有高效、灵活和环保等优势,但在成为主流能源方面仍面临一些挑战。以下是一些主要的原因:
    的头像 发表于 10-03 16:23 459次阅读

    云知声口语评测技术应用于教育领域

    日前,云知声入选大连、丹东、本溪三地初中学业水平考试英语听力口语考试智能口语评测技术服务商,并以其专业可靠的口语评测,确保三地英语考试结果的公平、客观、准确,为教育公平和学生能力的真实反映提供了有力保障。
    的头像 发表于 09-19 15:41 323次阅读

    深圳特信电子 单臂螺旋天线:为何它能成为无线通信领域的佼佼者

    深圳特信电子|单臂螺旋天线:为何它能成为无线通信领域的佼佼者
    的头像 发表于 09-05 09:05 433次阅读

    氢储能,能源变革的蓝海产业。

    在众多储能技术中,氢储能成为业界备受关注的潜力路线。
    的头像 发表于 08-05 09:08 300次阅读
    氢储能,能源变革的蓝海产业。

    自然语言处理是什么技术的一种应用

    广泛,包括机器翻译、语音识别、情感分析、信息检索、问答系统、文本摘要、聊天机器人等。 一、自然语言处理的基本概念 自然语言:自然语言是人类用来交流思想、表达情感和传递信息的语言,包括口语书面语。自然语言具有高度的复杂性和多样性,包括语法、语义、
    的头像 发表于 07-03 14:18 972次阅读

    自然语言处理包括哪些内容

    ,从而实现人机之间的自然交流。本文将详细介绍NLP的主要内容,包括基本概念、关键技术、应用领域等。 一、自然语言处理的基本概念 自然语言:自然语言是人类用来表达思想、情感和信息的语言,包括口语书面语。自然语言具有高度的复杂性和多样性,包括语法、语义、
    的头像 发表于 07-03 14:15 950次阅读

    台积电加速先进封装产能建设应对AI芯片需求

    随着英伟达、AMD等大厂AI芯片热销,先进封装产能成为市场紧俏资源。据悉,台积电南科嘉义园区的CoWoS新厂已进入环差审查阶段,并开始采购设备,以加快先进封装产能的建置。
    的头像 发表于 06-13 09:38 543次阅读

    **十万级口语识别,离线自然说技术,让智能照明更懂你**

    固定词条等。针对这些问题,启英泰伦现已推出成熟的可应用于照明设备的离线自然说方案,该方案已在多家智能照明厂商最新产品上实现应用落地。 照明离线自然说方案采用启英泰伦第三代AI语音芯片(芯片Flash
    发表于 04-29 17:09

    星德胜在上交所成功上市

    国内家用吸尘器电机制造的佼佼者星德胜公司,近日在上交所主板成功上市,迎来了公司发展的新篇章。此次上市,星德胜募集的资金将主要用于无刷电机及电池包的扩产项目、研发中心建设以及有刷电机的技术改造等关键领域。
    的头像 发表于 03-26 16:08 480次阅读

    星德胜在上交所主板挂牌上市

    星德胜在上海证券交易所主板顺利挂牌上市,股票代码为603344,标志着公司迈入了新的发展阶段。自创立以来,星德胜始终专注于微特电机及相关产品的研发、生产与销售,致力于为客户提供高质量的产品和优质的服务。
    的头像 发表于 03-22 15:50 702次阅读

    数据中心AI芯片上升趋势能够持续多久呢?

    2024年很有可能成为AI芯片的元年。
    的头像 发表于 01-24 16:26 1016次阅读
    数据中心<b class='flag-5'>AI</b>芯片上升趋势能够持续多久呢?

    新火种AI|这家“中国OpenAI”,能赶超OpenAI吗?

    全面对标OpenAI,智谱AI能成为“中国的OpenAI”吗?
    的头像 发表于 01-18 17:56 656次阅读
    新火种<b class='flag-5'>AI</b>|这家“中国OpenAI”,能赶超OpenAI吗?

    商汤科技发布新一代大语言模型书生·浦2.0

    1月17日,商汤科技与上海AI实验室联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦2.0(InternLM2)。
    的头像 发表于 01-17 15:03 834次阅读
    商汤科技发布新一代大语言模型书生·浦<b class='flag-5'>语</b>2.0

    新火种AI|2024乍到,会成为小模型的当打之年吗?

    异常激烈,烧钱的势头也变得异常凶猛。 不过,这样的趋势很可能在2024年产生变化。每个事物的发展都要经历“产生,发展,高潮,低谷”的阶段,已经在2023年大放异彩,涌现无数高光时刻的大模型很可能在2024年渐渐冷却,褪掉光环,而小模型,则有可能成为
    的头像 发表于 01-10 22:27 309次阅读