精品国产sm捆绑最大网免费站_久久精品国产99久久丝袜_乱精品一区字幕二区_精品国产日产一区二区三区

當前位置: 首頁>>新聞信息>>國際漁業>>正文

DeepSeek:邁向全社會分享的普遍智能
2025-02-07 15:56:53  來源:文匯報

去年春節,美國OpenAI開發的視頻生成AI工具Sora橫空出世,成為世界關注的焦點。今年春節前夕,一家低調的中國AI企業DeepSeek推出的開源大模型在全球引發了不啻Sora的震撼——它在模型算法和工程優化方面所進行的系統級創新,為在受限資源下探索通用人工智能開辟了新的道路,并為打破以“大模型、大數據和大算力”為核心的生成式AI“擴展定律”天花板帶來了無限遐想。

過去幾周,DeepSeek超越ChatGPT,登頂蘋果美國地區應用商店免費App下載排行榜。1月28日,美國“外交學者”網站(The Diplomat)發表題為《中國的DeepSeek是美國人工智能的“斯普特尼克時刻”》的文章指出,DeepSeek此次的開源之舉延續了OpenAI的初心使命——為了人類利益推動人工智能發展。

DeepSeek的出圈,再次印證了一個科技創新硬道理:贏得比賽的關鍵是精益求精、富有創造力的創新,而非單純的金融實力和一味的出口管制。

“大力出奇跡”并非AI唯一出路

2019年,人工智能領域強化學習鼻祖、DeepMind研究科學家、加拿大阿爾伯塔大學計算機學教授理查德·薩頓發表了一篇題為《苦澀的教訓》的文章,認為“縱觀過去70年的AI發展歷史,想辦法利用更大規模的算力總是最高效的手段”。

“數據是燃料、模型是引擎、算力是加速器”這一深度學習理念支持下,以Transformer為基本模型的生成式AI(如ChatGPT等)不再從互聯網中搜索和羅列已有的匹配信息,而是從海量數據中洞悉單詞與單詞之間的共現概率,以組合意義下“昨日重現”方式合成眾所周知的語言內容。

Transformer是2017年谷歌公司提出的一種新型深度神經網絡,其核心在于通過自注意力機制讓每個單詞記住在不同語境下的“左鄰右舍”,然后以似曾相識之感來概率合成新的內容。“Transformer”這一名字或許受到了電影《變形金剛》的英文名“Transformers”的啟發,因此可以將合成內容的生成式AI看成一個“魔鏡”,它能夠根據輸入內容如變魔術般輸出與之對應的內容。

由于每個單詞要記住越來越多不同語境下的“左鄰右舍”,因此模型參數不斷增多而導致模型規模不斷增大,隨之出現了大模型的“擴展定律”(Scaling Law),即隨著模型規模、訓練數據和計算資源的增加,模型性能會得到顯著提升,并且這些關系遵循可預測的模式。

面對越來越大的模型,訓練模型所需的AI算力不斷飆升,“大力出奇跡”這一算力霸權開始左右人工智能的發展。英偉達創始人兼首席執行官黃仁勛據此提出過“黃氏定律”:在計算架構改進的推動下,人工智能芯片的性能每年可提升1倍,速度遠超集成電路領域的摩爾定律。

人工智能“擴展定律”雖然也需要算法和系統創新,但是這一“無他、但手熟爾”的模式不應是AI發展的唯一出路,因為“化繁為簡、大巧不工”才是推動“機器學習”邁向“學習機器”的初衷。

“萬物之始,大道至簡,衍化至繁”,以簡單直接思路解決復雜問題才是科學研究之道。1953年,諾貝爾物理學獎得主恩利克·費米提 到,馮·諾依曼曾對他說 過,用4個參數就能畫出一頭大象,用5個參數就可以讓象鼻子動起來。英國數學家雅各布·布魯諾斯基也曾提到,馮·諾依曼認為圍棋不是博弈,雖然因為計算復雜而難以找到答案,但在理論上,下圍棋一定有個最佳落子方案。

這些故事告訴我們,用簡單方法解決復雜問題是科學研究基本思路之一。正如愛因斯坦所言,“所有科學中最重大的目標就是從最少數量的假設和公理出發,用邏輯演繹推理的方法解釋最大量的經驗事實”。由此可見,DeepSeek的研發初心切合了大模型發展的內在邏輯,為遏制其規模“瘋長”勢頭提供了一劑良藥。

“學而不思則罔”到“思而不學則殆”

能用眾力,則無敵于天下矣;能用眾智,則無畏于圣人矣。DeepSeek的精彩表現在于其對算法、模型和系統等進行的系統級協同創新,是眾智和眾力相互疊加的成果。

應該說,DeepSeek模型仍是基于此前的Transformer架構,沒有實現改變游戲規則的顛覆性基礎理論創新。但是,它在模型算法和工程優化方面進行了系統級創新,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集群上完成訓練,打破了大語言模型以大算力為核心的預期天花板,為在受限資源下探索通用人工智能開辟了新的道路。其算法和工程創新主要包括混合專家模型、低秩注意力機制、強化學習推理、小模型蒸餾,以及諸如FP8混合精度和GPU部署優化等工程創新。

其中,混合專家稀疏模型與傳統大語言模型“眾人拾柴、咸與維新”的路徑不同,它另辟蹊徑利用了“術業有專攻”的理念,每次讓若干個合適專家協作發揮各自能力,完成特定任務。

實際上,人腦也是一個稀疏模型。雖然人腦由800多億個神經元和100萬億個突觸連接而成,但它在完成識人辨物和舉手投足等任務時,每次只有一小部分神經元被激活。實現“弱水三千,只取一瓢飲”,且讓被選擇的若干專家能夠以“十個指頭彈鋼琴”的形式,負載均衡地合作完成任務,而不是“三個和尚無水喝”——這正是DeepSeek所做出的難得的算法創新。

低秩注意力機制的引入使DeepSeek在保持模型性能的同時顯著降低了計算和存儲成本。人類在理解外界信息時,往往看到的是內嵌在信息中的本質結構。例如,我們理解一篇文章,更關切若干單詞組合所刻畫的主題概念,而非單詞從頭到尾的羅列。傳統大模型中的注意力機制由于需要記錄每個單詞在不同上下文中的左鄰右舍,因此變得龐大無比。DeepSeek對這一巨大的注意力機制矩陣進行了壓縮,從而極大提升了模型運行效率。

在強化學習推理方面,傳統大模型訓練時采用了“授之以魚,不如授之以漁”的方法,即人類給出大量思維鏈數據,通過監督式微調來讓大語言模型仿照思維鏈完成相應任務。但DeepSeek的做法則如同讓一個天才兒童在沒有任何范例的指導下,完全通過“嘗試與試錯”來不斷探索未知空間,并利用已有經驗不斷取得進步,最終完成從“摸著石頭過河”到“先知后行”的蝶變。

而且,DeepSeek進一步提出了讓模型從若干答案中進行比較的選擇方法,以實現自我提升。

這種直接訓練方法不僅耗時更短、計算資源需求大幅減少,更讓模型學會了思考,而且是以見證“啊哈時刻(Aha Moment)”(指讓用戶眼前一亮時刻)的頓悟方式思考。

但值得注意的是,該方法難免導致推理過程難以被溯源和理解等局限。為此,DeepSeek收集了一部分思維鏈數據,引入冷啟動和有監督微調等方法,對模型進行再次訓練,從而讓模型在保持強大推理能力的同時,還學會了用人類易懂的方式表達思維過程。

廣受關注的“模型蒸餾”就是讓小模型模仿大模型回答問題的結果,來提升自身能力。比如,在對一篇文章分類時,大模型認為該文章以85%、10%和5%的概率分別屬于正面、負面和中性等不同情感類別。小模型就從大模型輸出的結果中認真思考,不斷調整參數,以期望繼承大模型能力,從而輸出類似結果。

由于神經網絡有強大的非線性映射能力,蒸餾學習不僅沒有導致“東施效顰”的笑話,反而使得大模型的能力之道以“他山之石、可以攻玉”的蒸餾之術遷移到了小模型。這不禁讓人感嘆,對于大模型而言,“學而不思則罔”;對于小模型而言,“思而不學則殆”。

智能時代,教育何為?

人工智能是一種類似于內燃機或電力的“通用目的技術”,天然具備“至小有內,至大無外”推動學科交叉的潛力。無論是從人工智能角度解決科學問題(AI for Science,如利用人工智能預測蛋白質序列的三維空間結構),還是從科學的角度優化人工智能(Science for AI,如從統計物理規律角度優化神經網絡模型),未來的重大突破都將源自于這種交叉領域的工作。

如果說過往的技術發明是從機械化增強角度提升人類與環境的互動能力,那么人工智能的出現將對人類的這一根本能力和角色發起挑戰——生成式人工智能的出現使得智能機器成為知識生產的輔助者,這將深刻改變個體學習者的自主思考、判斷、學習能力,乃至倫理道德觀。

如何看待一項新技術的發展,這是進行技術預測的一項必需認知準備。遺憾的是,人類總是習慣于線性思維(這符合人類自然的認知模式:節省能量與快速計算),但這種認知配置很容易出現認知偏差,其中最常見的就是對于技術近期與遠期影響的判斷出現不對稱性——短期內傾向于高估技術的影響,長期內低估技術的影響,即美國科學家羅伊·阿瑪拉提出的“阿瑪拉法則”。

那么,隨著智能時代的來臨,如何通過教育體系的變革來應對這一時代之變?在浙江大學2024年6月發布的《大學生人工智能素養紅皮書》中,我們提出,大學生人工智能素養是由體系化知識、構建式能力、創造性價值和人本型倫理構成的有機整體,其中知識為基、能力為重、價值為先、倫理為本。

目前,浙江大學和復旦大學等高校已將人工智能作為全校大學生通識必修課程。而且,浙江大學、復旦大學、上海交大、南京大學、中科大和同濟大學已在四年前共同推出“課程共建、學分互認、證書共簽”的AI+X微專業,今年還將推出升級版,以進一步加強人工智能通識教育和交叉學科教育。

2024年春節,我為文匯報撰寫《Sora“超級涌現力”將把AI引向何方》的文章,今年春節又為DeepSeek撰稿。雖然希望人工智能年年有精彩,但我更期盼全社會分享的普遍智能到來。

DeepSeek模型特點速讀

混合專家稀疏模型

DeepSeek的基座模型V3采用了混合專家機制,每一個Transformer層包含256個專家和1個共享專家,V3基座模型總共有6710億參數,但每次token僅激活8個專家、370億參數。這一創新算法與稠密模型相比,預訓練速度更快;與具有相同參數數量的模型相比,具有更快的推理速度。

低秩注意力機制

低秩注意力機制又被稱為多頭潛在注意力機制。DeepSeek引入“低秩”這一概念,對巨大的注意力機制矩陣進行壓縮,減少參與運算的參數數量,從而在保持模型性能的同時顯著降低計算和存儲成本,把顯存占用降到了其他大模型的5%—13%,極大提升了模型運行效率。

強化學習推理

DeepSeek這次在訓練推理模型中直接采用了一條前所未有的“純”強化學習路徑,僅根據模型輸出答案優劣以及輸出答案格式完整等簡單信息,對模型行為進行獎懲。

該方法不僅對計算資源的需求大幅減少,還可讓模型以“頓悟”的方式學會思考,并用人類易懂的方式表達思維過程。

模型蒸餾

為了讓簡潔緊湊的小模型具備DeepSeek-R1那樣的推理能力,DeepSeek開發團隊采用蒸餾方法來增強小模型的推理能力,即讓小模型模仿大模型回答問題的結果,來提升自身能力。

工程創新

DeepSeek使用FP8混合精度加速訓練并減少GPU內存使用,使用DualPipe算法(即將前向和后向計算與通信階段重疊,以最大限度減少計算資源閑置)提升訓練效率,并進行了極致的內存優化。他們開發了一套完善的數據處理流程,著重于最小化數據冗余,同時保留數據的多樣性。

上一條:全球最大數字微生物數據庫建成
下一條:2025年這些創新技術有望大放異彩

精品国产sm捆绑最大网免费站_久久精品国产99久久丝袜_乱精品一区字幕二区_精品国产日产一区二区三区
<samp id="8eqgw"><pre id="8eqgw"></pre></samp>

  • 
    
    欧美黄色aa电影| 亚洲国产三级| 玖玖精品视频| 欧美精品激情blacked18| 美国成人直播| 欧美日韩色综合| 国产亚洲精久久久久久| 在线国产精品播放| 一区二区三区成人 | 亚洲国产精品va在看黑人| 99re国产精品| 久久精品一二三区| 欧美日韩亚洲一区三区| 国产日韩精品视频一区| 亚洲精美视频| 久久激情视频免费观看| 国产精品嫩草影院av蜜臀| 国产一区二区三区四区在线观看| 在线成人性视频| 亚洲视频免费| 久久综合九色欧美综合狠狠| 国产精品sss| 亚洲精品裸体| 久久国产福利国产秒拍| 国产精品成人观看视频免费 | 樱花yy私人影院亚洲| 99国产麻豆精品| 久久综合网色—综合色88| 欧美午夜一区| 亚洲欧洲精品一区| 久久国产一区二区三区| 国产精品日韩高清| 一片黄亚洲嫩模| 欧美激情国产精品| 亚洲激情视频在线观看| 久久色在线观看| 国产专区一区| 欧美一级播放| 国产精品入口日韩视频大尺度| 91久久精品www人人做人人爽| 久久精品国产欧美亚洲人人爽| 欧美日韩天天操| 亚洲精选视频免费看| 美日韩精品视频免费看| 伊人成人开心激情综合网| 欧美在线视频免费观看| 国产精品日韩一区| 亚洲欧美欧美一区二区三区| 国产精品高精视频免费| 亚洲影视在线| 国产欧美一区二区精品婷婷| 翔田千里一区二区| 国内精品久久国产| 麻豆成人91精品二区三区| 樱花yy私人影院亚洲| 美日韩丰满少妇在线观看| 亚洲人成网站精品片在线观看| 免费在线成人av| 亚洲看片免费| 国产精品三级视频| 久久久久久一区二区三区| 黄色日韩网站| 欧美精品一区二区蜜臀亚洲 | 午夜日韩电影| 国内精品久久久久影院 日本资源| 欧美一区二区在线免费观看| 国产欧美精品久久| 欧美91视频| 亚洲视频导航| 韩国成人福利片在线播放| 男女激情久久| 亚洲一区二区不卡免费| 国内一区二区在线视频观看| 欧美激情一区二区三区不卡| 亚洲欧美国产精品桃花| 狠狠v欧美v日韩v亚洲ⅴ| 欧美韩日亚洲| 欧美一二三视频| 亚洲毛片一区二区| 国产一区二区av| 欧美日韩精品一区二区三区| 久久本道综合色狠狠五月| 最新亚洲激情| 狠狠色丁香久久婷婷综合丁香| 欧美人与性动交cc0o| 久久在线视频在线| 午夜免费日韩视频| 亚洲精品日日夜夜| 国内免费精品永久在线视频| 欧美日韩国产首页| 久久久精品tv| 午夜欧美精品| 在线午夜精品| 亚洲精品国精品久久99热| 国产亚洲激情在线| 国产精品久久网站| 欧美另类一区| 欧美jjzz| 六月天综合网| 久久久久久一区| 久久av一区二区三区亚洲| 亚洲一区三区在线观看| 在线一区视频| av不卡在线看| 亚洲狼人精品一区二区三区| 91久久精品国产91性色tv| 在线观看欧美日本| 一区二区亚洲精品国产| 国产伦精品一区二区三区视频孕妇| 欧美激情精品久久久六区热门 | 欧美日韩一区二区三区在线视频| 久久午夜精品一区二区| 欧美一区二区视频在线观看2020 | 欧美黄色视屏| 欧美1区免费| 免费欧美在线视频| 老**午夜毛片一区二区三区| 欧美一区国产在线| 久久爱另类一区二区小说| 欧美一区二区黄| 亚洲欧美一区二区精品久久久| 一区二区三区视频免费在线观看| 亚洲精选视频免费看| 亚洲精品一区二区三区四区高清| 亚洲国产成人精品久久| 日韩一级精品视频在线观看| 在线亚洲一区观看| 亚洲男同1069视频| 性感少妇一区| 久久亚洲不卡| 欧美人在线观看| 国产精品亚洲片夜色在线| 国产日韩在线一区二区三区| 国产一区久久| 亚洲国产精品久久人人爱蜜臀| 亚洲全部视频| 亚洲小说欧美另类婷婷| 欧美在线视频在线播放完整版免费观看 | 国产精品自在线| 伊人狠狠色j香婷婷综合| 亚洲欧洲在线视频| 亚洲一区二区三区四区五区午夜| 性欧美8khd高清极品| 久久久成人精品| 欧美日韩国产综合一区二区| 国产午夜精品一区二区三区视频| 亚洲日本精品国产第一区| 午夜在线播放视频欧美| 女同性一区二区三区人了人一 | 一本久道久久综合狠狠爱| 亚洲欧美在线网| 蜜桃av综合| 国产伦精品一区二区三区| 亚洲精品一区二区三区不| 欧美一二三区精品| 欧美日韩国产不卡| 精品99视频| 亚洲欧美中日韩| 欧美乱人伦中文字幕在线| 好看的av在线不卡观看| 亚洲综合日韩中文字幕v在线| 久久色在线观看| 国产精品一区久久久久| 亚洲最新色图| 免费欧美电影| 国模 一区 二区 三区| 亚洲一区二区欧美| 欧美大香线蕉线伊人久久国产精品| 国产日韩视频一区二区三区| 在线亚洲欧美视频| 欧美激情第五页| 激情欧美日韩一区| 欧美在线视频观看| 国产精品日韩久久久| 一区二区三区久久网| 欧美承认网站| 激情综合亚洲| 久久免费观看视频| 国产自产女人91一区在线观看| 亚洲欧美在线免费观看| 国产精品高潮粉嫩av| 9l国产精品久久久久麻豆| 美女视频网站黄色亚洲| 亚洲第一黄色网| 欧美xart系列高清| 亚洲国产成人精品女人久久久| 久久精品国产99精品国产亚洲性色| 国产精品毛片高清在线完整版| 中国女人久久久| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ入口 | 午夜精品一区二区在线观看 | 影音先锋中文字幕一区| 久久精品免费| 国内成人精品2018免费看| 久久国产精品99国产| 国产亚洲精品久久久久婷婷瑜伽| 性欧美暴力猛交另类hd| 国产婷婷成人久久av免费高清| 亚洲综合久久久久| 国产综合在线视频|