博文 | 学术垃圾

关于GPT等人工智能的思考

已经七月份了(本文是七月份在武汉期间写的，九月份才完善并发出来)，想来ChatGPT大抵是今年年初的时候在国内开始广为人知，以及被广泛应用，那时已经是GPT3版本了罢。

我也通过朋友提供的接口，使用过GPT，并且为其所震撼。GPT所表现出的强大，一改我曾对人工智能的认知。

曾经我对人工智能语言对话系统的认知，最高就是诸如小爱同学、小艺之类的手机语音助手。~~也算是我眼界窄了，格局小了。~~这种人工智障偶尔还是有点用，例如问天气、公交、文学，但很多问题都是答非所问，称其为人工智障也不为过。直到我使用GPT，才改变了这一认知。

人工智障.webp

尽管GPT有时也存在答非所问，废话连篇的情况，但瑕不掩瑜，其无论是在编程开发方面的能力，还是在写文案应对水课的能力，以及润色论文上，都让人啧啧称奇，如同一个无所不知有问必答的神。如此强大的人工智能，即使是3.0的版本，就已经能应对许多提问了。

而我并没有注册OpenAI账号，如今也很少再用GPT了。

并非是出于技术缘故和经济原因，也并非是观念上的不认同。而是我认为，相比于使用GPT，正确陈述问题的能力，我更需要的是自己检索资料，得到问题答案的能力。

类比原神虚空

玩过原神的朋友可能对其中的须弥主线剧情印象深刻。我也正是今年年初时才过到须弥的剧情，相信很多人的感觉与我一致，草神之心维持的虚空如同一个巨大的服务器，须弥的人们佩戴的虚空终端就如同ChatGPT。在权限范围内，人们可以从虚空中获得任何问题的答案，上到学术研究，下到市井生活。学者们不必前往图书馆即可获得知识，劳动人民们也得以通过虚空终端的信息和指示，协调生产生活。

这看起来相当美好，虚空也稳定运行了几百年。

这几百年的稳定运行，就使得须弥的人们，对虚空的信息深信不疑、奉为圭臬，不再去求证信息的真实性。

剧情的最后，艾尔海森利用了这一点，误导统治者在虚空中发布了假信息，干扰了须弥城防卫力量的调度，最终推翻了统治者，救出草神。

艾尔海森.webp

然而现实中的人工智能语言模型，被人们广泛使用的时间，应该不到十年罢(十年前智能手机刚刚起步，普遍都还不带语音助手)，远不及游戏中对虚空几百年的使用。

如果现实中的我们，对人工智能的回答深信不疑，那么跟须弥民众又有什么不同呢？万一现实中有这么一个「艾尔海森」出来作妖，后果又如何呢？

我想起去年应该是去年吧，好像没记错google翻译的一件事情，会将一些政治性词汇恶意翻译。事情的真相我记得是，google翻译提供有用户反馈功能，用于改善翻译的质量。图谋不轨之人，则借用这一功能，提交大量错误且恶意的翻译，经过多次的数据污染，最终发生了这一事件。

兼听则明偏听则暗

上文所述，我认为自己需要的是自己检索资料，思考，并解决问题。这一点和直接问GPT得到答案有很大的不同：信息来源渠道。

一个问题，丢给GPT，得到回答。信息来源就是GPT一个

而丢给搜索引擎，得到的结果，便是百家之言。对于结果，需要去思考和辨别，这个平台的回答正确吗，如果不正确，别的平台用户又是怎么说的，如果都不正确，自己又该怎么做。

例如程序员检索问题，必然绕不开CSDN，简书，博客园，掘金等社区，从中找到对自己的问题最有效的帖子。如果没解决，继续上stackoverflow, github等找。如果你的问题是全网唯一的，前无古人的，那想必GPT也没法解答。

中国有句古话，~~西西物者魏俊杰~~ 「兼听则明，偏听则暗」。这不正是问GPT和问搜索引擎的区别吗？

语言模型该怎么做

GPT如今的强大，离不开其背后的大语言模型。据悉，GPT3训练时就有45TB的语料数据，整个维基百科的数据只相当于其训练数据的0.6%。这些数据绝对不是胡编乱造的，而是从人类所有记录的语言中收集来的，可能是纸质文献，也可能是互联网各个平台。

GPT对问题的回答，如果能附带上依据或出处，是否能增加一定的可信度，让用户更加放心一些呢？

例如

爷：在安卓开发中，怎么通过DataStore保存数据？提供一个demo
GPT：DataStore是一种新的数据存储保存方案，有xxx的特点。通过DataStore保存数据首先需要创建一个实例，再通过edit()方法更新其中的数据，然后再.....
提供一个示例代码如下: ......
本段回答是基于Go**le官方文档 https://developer.android.google.cn/topic/libraries/architecture/datastore 得到的
爷：《系群腰》词牌的格律对照
GPT：《系群腰》是由北宋张先的《惜霜蟾照夜云天》为正体，双调六十一字的词牌。根据**百科，其正体词牌为
平平中仄仄平平。平中仄、仄平平。平平中仄中平中，仄中中平。仄中仄，仄平平。
仄中中中中中中，平中仄、仄平平。中平中仄中平中，仄仄中平。仄中中仄，仄平平。

当然这不可避免会出现一些法律纠纷问题。比如说GPT用了张三的文章作为训练语料，但是张三极力反对自己的作品被AI拿去训练。有一天他看到GPT的一个回答，上面附着的依据就是他写的东西...这算不算对著作权的一种侵犯呢~

但上述这种做法也未必是绝对的，有些情况下则没必要把相应的学习语料列得很清楚

爷：How are you?
GPT：根据英语语境惯例，以及上下文实际情况，我应该回答 FIne, thank you.
爷：《化为千风》的英文全文
GPT：根据1934年12月的《Gypsy poetry》杂志，《化为千风》的作者为玛丽伊丽莎白弗莱，全文如下
Do not stand by my grave, and weep.
I am not there, I do not sleep
...(略)

另外

最后再叠个甲，我可不是什么故步自封的封建余孽，只是浅薄的认知，并不丰富的GPT使用经验，引发了一点没有深度的思考。

我还年轻，有足够的时间去学习这些前沿技术，去见证这项技术在未来几十年内的发展，见证一批批研究者们如何巧妙解决随着技术发展而产生的无可避免的法律或伦理问题，或许我也会成为众多研究者中之一。

如果觉得文章对你有用，请随意赞赏

关于GPT等人工智能的思考

https://blog.leafoct.cn/archives/guan-yu-gptdeng-ren-gong-zhi-neng-de-si-kao

作者

十月叶

发布于

2023-09-01

更新于

2023-09-01

许可协议

CC BY 4.0

关于GPT等人工智能的思考

类比 原神虚空

兼听则明 偏听则暗

语言模型该怎么做

另外

作者

发布于

更新于

许可协议

评论

类比原神虚空

兼听则明偏听则暗