先说结论:
input的token(1000token=750字母,500汉字),output 的token,Temperature,前置提示词,敏感词,大模型的类型因素造成的。
应用开发者调用gpt4o-128k能调的参数:input的token长度(6条,10条,20条,30条对话不等),output 的token (4000token封顶,国内有8000token的output长度),Temperature(0.1-1之间),前置提示词,敏感词过滤。
以上的参数直接影响大模型的输出效果!
大家都知道gpt4o上下文长度是128K。像我们做开发的时候,我们为了降低那个输入的消耗,然后因为你知道它输入和输出都是要消耗token的嘛,然后我们会设置输入的对话不会超过六条对话,相当于他的记忆其实没有128K那么长。这个会影响输出效果!这就是为什么大家觉得,我们开发出来的应用跟原生的GPT啊,没有拆GPT那么记忆长度长,是因为我们人为的为了控制它的输入的消耗,所以我们就把它截断了嘛,我们就只有些是10条,有些是6条,有些是20条,有些是15条,就是看每一家公司应用开发的时候,这个控制是控制在哪一个位置。
它理论上是128K,但是我们不可能给他全部打开,一旦打开的话,那它的消耗是惊人的,就是他每增加一次对话,可能消耗就是2美金,3美金,甚至是到5美金。这种消耗啊,那我们从AP的角度开发,第一是企业端,他会受不了,企业用户他会受不了,第二个就是我们的应用开发者,对吧,我们的账单也会受不了。所以就是从我们的使用场景来说,我们就是必须要限制。我们要input input的长度,正常input的话,最高就是我们不会超过2万token啊,就是这个原因。
那你说我们有没有办法去解决这个问题,就是input超过2万token让input的消耗不那么贵?我们有另外一种方案,我们叫rag啊,通过rag嵌入知识库的方式,因为嵌入的费用是非常低的。那这个时候啊,我们input可以一直维持在4K以内或者是2K以内啊,但是我的这个时候AI应用依然很智能,我就是通过rag嵌入了知识库,因为嵌入很便宜啊,就是我能够大大降低我input的费用啊,这个也就是我们叫kimi嘛,对kimi的那个200w token上文的那个技术来源其实对吧都是用rag的方案去做的。
输出的温度的话我们叫temperature,它有一个值叫温度值,温度值像官方的话它可能默认设的。温度值是1所以呀,你会觉得它输出的内容会比较有温度嘛,我们默认设置是0.6或者0.8啊,就会输出的内容会稍微冷一点吧,但是说输出内容其实是一样的啊,只是说一个温度高一点,一个温度低一点。对你应该有一个比较冷冰冰的一种说话语气。另外一种是啊,比较热情的说话语气啊,就是这个差别。
应用开发者怎么去调这些参数的问题了,因为你像纽恰GPT官方的它这些参数。他有可能都给你调到最最优的,或者是给你拉到拉满的状态,但是我们应用开发者可能会啊,在这些参数上调教啊,或者是对吧,比如max output token的数量设置成2000token,也给你限制了啊,就导致了你觉得输出长度不够长。
最终的还有一个就是敏感词过滤,敏感词过滤会极大的削弱大模型的输出的数量,输出内容的质量。因为在国内开发嘛,你知道对很多应用他没办法,他必须要开敏感词啊。
最后是大模型的型号的区别:gpt4o为例
常用的热门4o模型有:
gpt-4o 最早的4o模型
gpt-4o-2024-05-13 最热门的4o模型
gpt-4o-2024-08-06 最便宜的4o模型
chatgpt-4o-latest chatgpt chatgpt官方用的模型?
调用不同的模型。效果会稍微有点差别!但是同样是4o,能力相差不大!
不同模型的价格对比和说明:
o1-preview | 提示:$15/M tokens补全:$60/M tokens | 旨在解决跨领域难题的推理模型。o1-previe是我们针对需要广泛常识的复杂任务的新推理模型。该模型具有 128K 的上下文和 2023 年10 月的知识截止值。 |
o1-mini | 提示:$3/M tokens补全:$12/M tokens | o1-mini 是一种快速、经济高效的推理模型,专为编码、数学和科学使用案例量身定制。该模型具有 128K 的上下文和 2023 年 10 月的知识截止值。 |
gpt-4o-2024-08-06 | 提示:$2.5/M tokens补全:$10/M tokens | gpt-4o-2024-08-06。该模型具有128K上下文,每次请求最多可输出16K标记和 2023 年10 月的知识截止点,支持更严格的json格式化输出,推理能力更强。1106系列以上模型支持tool_calls和function_call |
gpt-4o | 提示:$5/M tokens补全:$15/M tokens | GPT-4o(指向gpt-40-2024-05-13)是OpenAl最先进的多模式模型,比 GPT-4Turbo 更快、更便宜,具有更强的视觉功能该模型具有 128K 上下文和 2023 年 10 月的知识截止点。1106系列以上模型支持tool_calls和function_call |
gpt-4o-mini-2024-07-18 | 提示:$0.15/M tokens补全:$0.6/M tokens | gpt-4o-mini-2024-07-18 GPT-40 Mini主打的就是便宜好用。该模型具有 128K 上下文,每次请求最多可输出16K标记和 2023 年 10 月的知识截止点。1106系列以上模型支持tool calls和function call |
gpt-4o-mini | 提示:$0.15/M tokens补全:$0.6/M tokens | 9pt-4o-mini(指向gpt-4o-mini-2024-07-18)GPT-40 Mini主打的就是便宜好用。该模型具有 128K上下文,每次请求最多可输出16K标记和 2023 年 10 月的知识截止点。1106系列以上模型支持toolcalls和function call |
最后如果觉得4o效果很差,那就是应用开发者给了假的4o模型,或者是api平台做了4o转国产模型?(api的模型重定向)。
这个时候,懂行的立马就能感觉到差别,是不是4o的能力,就像一个有经验的人事经理,一眼就能看出来这个人的学历和水平。
最后结论:只要应用开发者使用的是最新的4o模型,没有添油加醋的增加敏感词过滤或者前提提示词,那么模型输出的逻辑和效果都差不多。
至于语气的细微差别或者输出数量的多少,那都不是判断内容质量的关键。内容准确,逻辑清晰,错误少,才是判断内容质量的关键因素!
仁者见仁智者见智。毕竟老子的《道德经》5000字,《皇帝阴符经》300字,都解释了同一个道理。