首先,不能用傳統建設大數據或者私有云平臺的方式去部署智算大模型平臺。過去做大數據或者私有云平臺時,主要投資是服務器,網絡性能往往被忽視。然而,隨著UI平臺建設的逐步完善與發展,UI服務器利用率與網絡性能之間的正比關系也逐漸清晰。
其次,不能重硬件輕軟件。大模型的算力系統是把幾萬個數據處理單元連接起來,一旦出現故障或者阻塞,就會導致訓練中斷。因此,一個優秀的算力調度平臺是算力系統建設的核心要素。它能夠實現訓練與推理資源的統一管理和分時復用,支持訓推資源共池、跨域診斷、斷點續訓等功能。
最后,不能重語料數量,輕語料質量。盡管數據量對于訓練行業大模型極為重要,但它并非是決定模型性能的唯一因素。語料的質量、多樣性和代表性同樣重要。因此,在訓練或微調行業模型時,需要重視語料的質量、多樣性和代表性等,并采取適當的數據預處理措施以確保模型訓練的有效性和準確性。