绝大部分人根本不知道关税是什么!
因为在英语当中,关税和税收是两个完全没有任何关系的不同单词!
在大部分雄鹰部落的人的理解当中,金毛大酋长只是使用了一个名叫“关税”的超级武器,给自己的国家带来了丰厚的回报。
以至于国家甚至有钱给每个公民发钱!
至于关税带来的物价上涨,生活困难……他们永远也不会知道这些问题的根源在哪里。
中文不一样,哪怕只有高中水平的知识,也可通读大部分专业论文。
这便是二者之间根本性的差异!
而这也就意味着,AI模型在处理中文时,参数量和计算量更少,训练和推理过程更高效!
这可不是苏定平胡说,而是有具体的现实例子作为参考。
后世的中文模型仅需西方资金的百分之一,就能实现高水准输出。
即便是考虑到汇率差和人工成本,这个数据也足够夸张。
这变是得益于汉字组合新词时,根本无需创造全新词汇,只需要通过有限字根灵活衍生,便可减少模型的学习负担。
除此之外汉字本身是“形、声、义”三维一体的符号,每个字均可视为一个知识节点,天然就支持语义网络构建。
上个世纪有个科学家提出了著名的信息熵理论,简单来说,就是一个最基础的字节所能够承载的信息量。
而中文最基础的汉字所能携带的信息量是其他表音文字的两倍以上!
除此之外,中文的词根化特征会让模型更容易识别模式和生成文本。
最简单的一个例子,星期一,星期二,只需要知道这个是指代日期的词汇,就很容易明白后续的词汇到底是什么意思,甚至推断出来了往后该怎么描述而英文当中,每周的每个日期都是完全不同的词汇,这就给ai的训练带来了极大的难度。
至于所谓的英文的描述更加精准这种话,说出来更是搞笑所谓的更加精准,只不过是用全新的词汇去命名每一个全新的事物。
但问题是,字母就这么多,新事物却是越来越多,这就最终导致的结果就是越来越繁杂的词典和更高的学习难度。
原先汉语当中也会用很多生僻字去专门描述每一种不同的事物。
比如骊就表示纯黑色的马,只不过这样的描述方法早就被淘汰在历史的长河之中了。
最后,中文的高信息密度,则是可以支持构建仿人脑架构的AI系统
本章未完,请点击下一页继续阅读!