首頁> 快訊 > > 正文

海天瑞聲發(fā)布中文千萬輪對話語料庫DOTS-NLP-216

2023-07-31 12:02:42來源:永州新聞網(wǎng)

近年來,隨著數(shù)據(jù)處理技術的飛速進化以及計算能力的不斷提升,大模型及其在生成式人工智能中的應用得到了迅猛發(fā)展。這一領域的突破性進展不僅為各行各業(yè)帶來了巨大的變革潛力,也為我們對人工智能的未來發(fā)展充滿了無限想象。


【資料圖】

近期,Llama 2 發(fā)布的消息在AI圈引起了巨大轟動。在 Llama 2 官網(wǎng)公布的50余家合作伙伴中,作為唯一的中國企業(yè),海天瑞聲榜上有名,成為 Llama 2 全球合作伙伴。同時,海天瑞聲COO李科及CTO黃宇凱作為 Supporter,支持 Meta AI 的這種開源行為。可以讓每個人都能從這個技術中受益良多,并為技術帶來足夠的透明度、審慎性和可信性。

當前在中文對話領域,公開的數(shù)據(jù)集往往量少、分布有偏、價格昂貴甚至不能商用。導致一些大模型在中文對話方面的能力,相比英文對話略遜一籌。尤其是在一些需要比較深的中文語言理解能力的對話場景,無論開源的還是閉源的大模型,都往往表現(xiàn)不佳。

海天瑞聲正式推出「中文千萬輪對話語料庫DOTS-NLP-216真實場景采集,符合中文表達習慣的自然對話數(shù)據(jù),將為中文大語言模型(LLM)帶來新動能。我們致力于在安全合規(guī)的基礎上,為大模型提供更好的性能和魯棒性,幫助企業(yè)更輕松的構建高質量生成式AI應用。

數(shù)據(jù)集優(yōu)勢

·中文多輪對話:符合中文表達習慣,真實場景采集的自然對話

·超大規(guī)模:上億級 token

·立等可取:成品數(shù)據(jù)集

·自有版權:安全合規(guī),可授權商用

數(shù)據(jù)集詳情:

這是一個符合中國人表達習慣的自然對話數(shù)據(jù)集,共計約1,0000,000輪,上億級token,包含正式&非正式風格對話,使用偏口語化自然表達。覆蓋工作、生活、校園等場景,及金融、教育、娛樂、體育、汽車、科技等領域。

在數(shù)據(jù)集構成上,DOTS-NLP-216包含了對真實場景的對話采集,及高度還原真實場景的模擬對話這兩種方式,兼顧分布的代表性、多樣性和樣本規(guī)模。

樣例

據(jù)悉,海天瑞聲近期還發(fā)布了再融資預案,將建設不少于10大類型的大模型數(shù)據(jù)集系列產品,用于大語言模型、多模態(tài)大模型的訓練和大模型評測。

標簽:

上一篇:Ubuntu Touch 20.04 OTA-2 系統(tǒng)發(fā)布,支持小米、一加等多款手機
下一篇:最后一頁
国产精品亚洲综合一区| 香蕉久久夜色精品国产2020| 国产Av一区二区精品久久| 久久精品国产精品亚洲下载| 国产v精品成人免费视频400条| 国产在线精品二区| 国产精品视频无圣光一区| 精品无码一区二区三区亚洲桃色| japanese乱人伦精品| 2020年国产精品| 久久精品中文字幕免费| 国产99久久久国产精品~~牛 | 精品国产自在久久| 无码国产乱人伦偷精品视频| 亚洲午夜精品一级在线播放放 | 日本精品在线观看视频| 99精品中文字幕| 97久久精品国产精品青草| 国产精品青草久久| 精品无码免费专区毛片| 国产精品ⅴ无码大片在线看| 亚洲麻豆精品国偷自产在线91| 日韩av无码国产精品| 精品无码日韩一区二区三区不卡| 成人国产精品免费视频| 国产四虎精品8848hh| 欧美日韩精品一区二区在线视频| 97在线视频精品| 无码国产精品一区二区免费模式| 亚洲精品tv久久久久久久久| 国产精品成人99久久久久| 日本精品一二三区| 国内精品伊人久久久影院| 97国产精品视频观看一| 久久99九九99九九精品| 国产亚洲精品资源在线26u| 亚洲日韩精品无码专区网站| 国产精品第100页| 国产精品宾馆在线精品酒店| 97久久超碰国产精品2021| 精品丰满人妻无套内射|