遇初小说

手机浏览器扫描二维码访问

第2045章 AI改变世界(第2页)

未来的互联网市场,归根结底是内容为王。

谁有内容谁就有制霸权。

包括未来的人工智能大语言模型也是。

就比如ChatGPT、文心一言这类的AI产品,想要有令人惊人的智能表现,就一定得经过无数数据内容的训练才行。

可是,数据是不能乱用的,只有公开数据或者开源数据,才能免费地供全球的开发者使用。

全球有一个超大型的免费的数据库。

什么语言都有,90%以上都是英文的语料库,中文语料数据也就是2%左右。

全球几乎所有的AI模型,想要训练都要依靠着这些公开的数据内容才行。因为都是英文数据,所以这些AI模型,一定都是以英文为核心。

所以当百度的文心一言推出之后,就会出现很多令人难以理解的事……其实原因很简单,文心一言使用的是英文数据,中文语料的数据实在是太少了。

别看国内人多,但网络上真正有价值的内容实在不多,稍微出格一点,这些有价值的语料就要按法律法规给删除了。

就剩下了一堆没法训练AI的垃圾内容。

就比如,《大时代之巅》到底是一本怎样的书?

如果有人说好,有人说不好,这些内容就都是有价值的内容,AI模型经过一番的训练和评估,从而给出比较客观公正的评价。

如果作者想要维护评论区的和谐,把所有说好的内容都留下了,说差的内容都删除了,最后只剩下了一片赞歌,那么即便这些赞歌都是对的,这也是垃圾信息。

因为对AI模型来说缺少了多元化的评判。

从出发点到终点,有一万条路,AI模型的训练就是把这一万条路都走一遍,然后选出最合适的那条路,这才是AI的价值。

就像生物制药,有一万种选择,AI帮忙给出最好的那几个选择,就会大大地缩减研发经费、提高研发成功率。

要是一开始就只提供一条路,那还训练个屁啊,不给AI选择、评判、思考和分析的机会,就只告诉他一个标准答案,AI就会毫无意义。

德文、法文、日文、韩文的数据量太少,中文的数据量很大,可是因为环境的限制有价值的数据也很少。

所以,想训练出世界级的AI模型,就只能用英文语料来训练。

这就需要一些弱势语言的AI模型,要有语言转换能力,去转换成英文。

就像使用文心一言,让他画一个起重机的图片。

结果画的是鹤。

这就很让人费解。

其实很简单,起重机的英文是crane,而crane在英文里主要是指鹤。所以AI模型就画出了鹤的图片。

又比如“可乐鸡翅”这种,放在中文语境里,其实很好理解,就是一道菜。可是,这里面有一道翻译的手续,把“可乐鸡翅”翻译成英文,在翻译过程中就造成了信息离散,导致画出来的可乐和鸡翅。

ChatGPT一样会遇到这样的困境。

用英文向ChatGPT提问,回答的速度会非常快,而且准确度极高;如果用中文、日文、韩文、法文、德文等其他语言来提问,反应速度就会很慢,给出的答案也会错误百出。

热门小说推荐
出名太快怎么办

出名太快怎么办

由于歌手意外缺席,迫于压力,王桓站出来唱了一首歌没想到就这样出名了。...

农门药香:拣个郎君来种田

农门药香:拣个郎君来种田

关于农门药香拣个郎君来种田十月怀胎一朝分娩,小包子真可爱,跟你爹长的等等,孩子他爹是谁啊,我还是单身狗怎么穿越就当娘了啊,你们干什么,不要拉我浸猪笼啊,未婚生仔不是我的锅啊!爹不疼娘不爱,面对亲戚宗族的批判,她愤而崛起,依靠穿越大神送的穿越大礼包,在神奇的空间里努力种田,给孩子找新爹!...

对不起,我的爱人是祖国[快穿]

对不起,我的爱人是祖国[快穿]

对不起,我的爱人是祖国快穿...

钢铁皇朝

钢铁皇朝

一个工科狗带着科技晶石回到了古代,身为皇子他不想争霸,不想腹黑,只想守着他的一亩三分地种种田,搞搞工业,混吃等死。ps这是一部轻松的种田文。...

我成了日式反派

我成了日式反派

魂穿日本。原主相貌端正成绩优异家境优渥不愁吃穿怎么看都是一帆风顺的人生开局。结果西城式却发现自己好像是个反派原主的死似乎也不太对劲...

大秦:公子丹,镇守边关八年

大秦:公子丹,镇守边关八年

公子丹,即刻前往漠北,镇守边疆,若无旨意,终生不得返回咸阳!刚重生大秦,开局就被发配边疆,意外激活了霸业系统。镇守边疆一年,奖励混元归一内功!镇守边疆三年,奖励青龙枪,轩辕剑,至尊在手,窥视天下!镇守边疆五年年,奖励虎豹骑,孙子兵法!八年后,秦始皇驾崩,天下大乱。就在各路诸侯踏破咸阳,大厦将倾之际,一杆金枪横空出世,天地为之变色!...

每日热搜小说推荐