国产在线视频精品视频,国产亚洲精品久久久久久青梅 ,国产麻豆精品一区,国产真实乱对白精彩久久,国产精品视频一区二区三区四

大模型“百花齊放” 業(yè)界合力“充實”中文語料數(shù)據(jù)

時間:2023-09-09 04:14:34       來源:中國新聞網(wǎng)


(資料圖)

中新網(wǎng)上海9月8日電 (記者 鄭瑩瑩)中國大模型語料數(shù)據(jù)聯(lián)盟8日又吸納了一批新成員,來充實適用于大模型的中文語料數(shù)據(jù)。中國大模型語料數(shù)據(jù)聯(lián)盟由上海人工智能實驗室、中國科學技術(shù)信息研究所等單位在今年的世界人工智能大會上聯(lián)合發(fā)起成立,致力建設開放型的大模型語料數(shù)據(jù)生態(tài)圈。

上海人工智能實驗室主任助理王延峰說,ChatGPT令人驚艷,但它對中文的理解還不盡人意。

9月8日,中國大模型語料數(shù)據(jù)聯(lián)盟在上海又吸納了一批新成員。中新網(wǎng)記者 鄭瑩瑩 攝

大模型時代帶來以數(shù)據(jù)為中心的人工智能領(lǐng)域新發(fā)展,但“投喂”哪些數(shù)據(jù)備受關(guān)注。王延峰在接受記者采訪時表示,語料數(shù)據(jù)不僅要量大,而且要高質(zhì)量,“就像培養(yǎng)一個孩子一樣,投入高質(zhì)量的教育,才有高質(zhì)量的‘輸出’?!?/p>

對于中文語料數(shù)據(jù)的不足,他表示,中文語料數(shù)據(jù)對于大模型能力的提升至關(guān)重要,業(yè)界需要高質(zhì)量的中文語料數(shù)據(jù)集。

上海蜜度信息技術(shù)有限公司(簡稱:蜜度)首席技術(shù)官劉益東在受訪時指出,目前中國國內(nèi)的大模型訓練里,非常缺少高質(zhì)量的中文語料數(shù)據(jù)集,“現(xiàn)在很多市面上的大模型主要是基于外文資料,再加上少量的中文資料,這樣訓練出來的大模型,對中文的理解能力以及對中文內(nèi)容的生成能力是有欠缺的?!?/p>

蜜度是此次加入中國大模型語料數(shù)據(jù)聯(lián)盟的9位“新成員”之一?,F(xiàn)場,蜜度發(fā)布了包含7000多萬條數(shù)據(jù)的開源中文語料數(shù)據(jù)集。

劉益東說,在大模型“百花齊放”的發(fā)展背景下,需要有一些機構(gòu)或團體去做“公共建設”,去推動這個行業(yè)的發(fā)展,企業(yè)樂于加入其中。

上海市經(jīng)濟和信息化委員會人工智能發(fā)展處處長王志佳表示,“百模大戰(zhàn)”不是一場零和游戲,攜手并進才能把生成式人工智能真正與生產(chǎn)力相結(jié)合,把大模型這個“冷灶”真正“燒熱”起來。

他指出,建設高質(zhì)量語料庫是大模型產(chǎn)業(yè)鏈的關(guān)鍵環(huán)節(jié)。大模型語料數(shù)據(jù)的多元供給需要多方協(xié)力、共同推進。(完)

首頁
頻道
底部
頂部