公司老板,CTO,CAIO,公司财务总监,公司人事部门必看!
阅读下面的内容,需要大家对主流大模型的api价格和性能熟悉!
为什么现在大模型厂商不吹上下文长度了,从4k到8k到16k,再到32k,128k,200k,input越来越长, 其实模型能力没有强多少,算力消耗几何倍的增长了。token消耗,api账单也是绷不住了!
你认为多少input长度,是符合你要求的 ?
rag+8-16k模型,可以完美解决input的长度吗?
上下文窗口真有意思 。 模型厂商拼命加窗口长度,而用户拼命限制窗口长度和消耗!
统计了一下2024 大模型rag的api调用记录,结合十几个用户的数据,input在0-1k占比35%, 1k-2k占比 45%, 2k-5k占比 15%, 5k以上占比 5%。
按照实践来说,上文长度限制在6条以内结合rag,不需要太多的input窗口长度。未来不就是降低input,这是主流方向呀 。其实就是提示词工程。提示词工程也是看底层模型的能力!
GPT-4o的input 消耗是3.5的 三分之一,这是真的。有数据支撑的。模型越高级,提示词越简单,input数量消耗越低!(高级模型的input单价也更高)
能力越强的模型,你需要的提示步骤越少。能力越差的模型,你挠破头训练他都没用,这是不是跟现实人事部门用人很相似?
结论:模型越好,提示词越简单,input消耗数量越低! 按照实践来说,上文长度限制在6条以内结合rag,不需要太多的input窗口长度!
欢迎评论区讨论和留言!