IDC首測國產大模型:公布第一梯隊,商湯日日新基礎、應用能力均領先
6月12日,國際數據公司IDC發布《中國大模型市場主流產品評估,2024》,從基礎能力到應用能力7大維度對11家大模型廠商的16款市場主流產品進行實測。
結果顯示:商湯日日新5.0位列第一梯隊,商湯旗下生成式AI產品“商量”和“秒畫”不僅在問答理解類、推理類、創作表達類、數學類等多個維度的基礎能力上表現突出,還在toB特定行業類的應用能力方面具備領先優勢。
這是IDC首次對國產大模型進行測評,采取了實測的方式,并成立產品測試團隊,通過多個維度對基礎大模型及相關產品進行評測,并邀請外部專家團隊深入分析各個產品答案準確性、合理性等,在審核委員會的監督下,最終得出各廠商的評估結果,供用戶選型參考。
作為進入實測評分最高的大模型之一,商湯科技被IDC列為第一梯隊,“日日新5.0”大模型及AI產品商量、秒畫在基礎能力方面表現出色:
在基礎能力-問答理解方面,其常識、專業知識表現突出,助力用戶準確獲取信息;
在基礎能力-推理方面,其情感推理、邏輯推理、歸納推理等能力優越,可以幫助人更加深入地理解事物,發現新的問題和解決方案;
在基礎能力-創作表達方面,其內容文字創作&創意等細分維度具備優勢,產品成熟度高;
在基礎能力-數學方面,處理高中數學、高等數學等高階數學題目時表現突出;
在基礎能力-代碼方面,其生成代碼文檔能力具備優勢;
而應用方面,IDC報告還指出商湯“日日新5.0”大模型體系及產品在面向toB行業、解決行業的實際應用問題的能力具備優勢,尤其是在咨詢服務(財報分析&市場分析)、互聯網/媒體營銷、零售/電商、醫療等toB特定行業。
事實上,自去年4月首次發布,商湯“日日新SenseNova”大模型體系已正式推出五個大版本迭代,并將先進的大模型能力轉化為落地實際場景的產品應用,在金融、手機、醫療、電信、汽車、地產、能源、傳媒、工業制造等眾多垂直行業,已與上海電信、小米小愛、金山辦公、海通證券、筑夢島等超過500家客戶建立深度合作,助力千行百業的企業解決實際應用難題。