您的位置：首頁 > 產經 >

AI一周見聞：微軟win11啟動AI變革；英偉達助力辦公軟件降本23%；視頻訓練成為機器人重要學習路徑 | 見智研究

來源：華爾街見聞 ? 2023-07-02 17:19:06

見智視角

本周AI的重要風向在win操作系統、辦公軟件應用和大模型私有化部署所展現出巨大的市場潛力。微軟的操作系統變革將為用戶帶來更智能、高效的體驗，辦公軟件應用的AI技術將提高圖像處理能力，而大模型私有化部署的發展將使AI在to B應用上更加安全可控，這些趨勢將對相關行業和公司的發展產生重要影響，為AI的廣泛應用提供更多機遇。

本周要點

AI應用：

(資料圖片)
Copilot"落戶"Windows11，操作系統的AI變革時刻已來金山辦公引入英偉達推理服務器和GPU，圖像任務能降本23%Midjourney 5.2又更新，這次AI生圖開始卷向表情包十秒剪視頻，Whisper模型讓每個人都能成為“剪輯師”機器人看YouTube學會做家務，大規模視頻訓練機器人成為重要路徑Unity推出AI Hub平臺，股價飆漲 15%，AI革命游戲的進程在加速
大模型：
谷歌 DeepMind花數千萬美元打造ChatGPT的競品，多模態視頻訓練將成為特色PrivateGPT 開源模型可實現不連網提問；本地部署未來空間大恒生電子發布金融行業大模型LightGPT，金融大模型場景多樣化，需求確定性強智譜AI為大模型應用更近一步！成為法律專用大模型底座
融資風向：AI安全成為資本的下一個風口，CalypsoAI融資2300萬美元

AI應用

1、Copilot"落戶"Windows11，操作系統的AI變革時刻已來

微軟官宣向開發者頻道中的 Windows Insiders 提供 Windows Copilot 的早期預覽。

第一個預覽版重點關注集成 UI 體驗，Windows Copilot 將顯示為停靠在右側的側欄，不會與桌面內容重疊，并且將在打開的應用程序窗口旁邊無障礙運行，可以隨時與 Windows Copilot 進行交互。 ?

在window11?Copilot 的預覽版本中，用戶可以提出以下種類問題：

內容涉及：個性化系統設置、截圖、文生文和文生圖的功能；

此外，Win11更新還包括本機支持讀取其他存檔文件格式；如常見.rar\ .7z等壓縮文件；

見智點評：

微軟兌現了在 5 月份的 Build 大會上的承諾，本次Copilot 的預覽版本落地win11，成為操作系統邁入AI時代的重要一步，之后win11會成為第一代AI系統的大規模商用版本；此外，微軟也表示在25年會停止win10的服務，包括專業版和家庭版，意味著那時起操作系統將會全面進入AI 時代。這將為用戶提供更智能、高效的操作體驗，并為微軟帶來新的商業機會。

2、金山辦公引入英偉達推理服務器和GPU，圖像任務能降本23%

金山辦公官宣與NVIDIA 團隊合作，為解決圖像識別和理解任務耗時過長和成本的問題，

引入 ?NVIDIA T4 Tensor Core GPU 進行推理、NVIDIA TensorRT 8.2.4 進行模型加速、NVIDIA Triton 推理服務器 22.04 在 K8S 上進行模型部署與編排。

通過 GPU 推理和 TensorRT 加速，成功將耗時從15秒降低到了 2.4 秒左右；部署成本節省了 23% 。

見智點評：

英偉達推理服務器的部署，成功優化了GPU的利用率，提高了辦公軟件對圖像文檔識別和推理的效率，能夠實現辦公軟件業務降本增效的預期。這一合作為WPS AI的落地應用提供了更高效的解決方案，這部分 AI 新能力集中在閱讀理解、問答、人機交互等方面。

WPS AI 已經開始內測階段，啟動大規模商用后，對國內辦公軟件使用體驗將帶來全面升級。這一合作將提升金山辦公的圖像處理能力，并為其在辦公軟件市場中的競爭力帶來優勢。

3、Midjourney 5.2又更新，這次AI生圖開始卷向表情包

Midjourney 5.2更新「weird」新功能，可自定義詭異等級。根據官網顯示通過調節weird參數的大小即能夠控制生成照片的詭異風格，參數越大照片越奇怪；但是該功能還只限于付費用戶使用；

此外，還更新了「turbo」模式：該功能是能夠以四倍速加速圖片生成；不過相較于傳統快速作業模式仍舊是需要消耗2倍的GPU；

見智點評：

圖片生成在AI的影響下正在從傳統模式進入一種新范式，weird模式增加了圖片超越常規認知的可能性創作，這種模式具備更多娛樂屬性，如果免費開放應用，那么大概率會在社交圈引爆。這一更新將進一步推動表情包制作的自動化和智能化，為用戶提供更多創意和娛樂選擇。

4、十秒剪視頻，Whisper模型讓每個人都能成為“剪輯師”

荷蘭開發者Matthijs Hollemans在HuggingFace上基于Whisper開發了視頻剪輯新功能，現在剪視頻能夠精準到每個字。

在平臺上可以對上傳的視頻內容進行同步文字轉化，只需要選擇留下的文字，然后就可以直接生成所需的片段。使用過程非常簡單，可累比相機界的“傻瓜相機”。

見智點評：

AI應用層出不窮，此前主要是AI生成圖片內卷非常嚴重，幾乎是每周都有重要更新，現在這個迭代速度已經開始向視頻領域蔓延，這個小白剪視頻的功能讓剪視頻門檻大大降低，同時節省了很多制作時間，效率優化超過90%，對于視頻創作行業來說具有重大影響。這將進一步推動用戶在社交媒體上的創作和分享活動，對于Whisper模型的開發商來說，商業機會也將隨之增加。

5、機器人看YouTube學會做家務，大規模視頻訓練機器人成為重要路徑

CMU機器人研究所助理教授Deepak Pathak展示了一種視覺機器人橋方法（VRB）；通過讓機器觀看人類行為方式的視頻完成行為模擬，并驗證了該方法的有效性。機器人觀看了幾個人類開抽屜的視頻后，可以效仿人類行為做出打開抽屜的動作。

見智點評：

這種方法的關鍵在于利用大規模的視頻數據來訓練機器人，并從中學習人類行為和操作。這為機器人的應用提供了更廣泛的可能性，可以通過觀察互聯網和YouTube等視頻來獲取更多的訓練數據。這種方法可以改進機器人的操作能力，并為機器人在日常生活中的應用提供更多的機會。

視頻訓練將成為機器人學習的重要路徑，進一步推動機器人技術在家庭和服務領域的應用和發展。

6、Unity推出AI Hub平臺，股價飆漲 15%，AI革命游戲的進程在加速

全球領先的3D內容平臺Unity宣布推出AI Hub平臺，允許 AI 軟件開發者通過 AI Hub 向游戲研發商直接供應開發軟件，并通過 Unity 的 Asset Store 收費；

同時推出了10個經驗證的解決方案，還在Unity Asset Store中推出兩款新的AI產品“Unity Sentis“及“Unity Muse”并正式啟動內測，預計將賦能AI驅動的游戲開發效率提升以及玩法升級。

見智點評:

AI將以非常迅速的節奏改變游戲制作方式以及降低成本，這已經成為游戲行業不可逆轉的路徑。游戲行業的格局或許也會因為生成式AI帶來巨變，AI革命游戲行業的進程在加速。

新AI平臺的推出印證了目前開發人員對于AI工具的巨大需求存在，而Unity似乎已經找到了新的盈利模式，AI Hub平臺很快將成為開發者和游戲公司最受歡迎的資源聚合平臺，看起來Unity將會在這場全新變革中賺的盆滿缽滿

大模型

1、谷歌 DeepMind花數千萬美元打造ChatGPT的競品，多模態視頻訓練將成為特色

谷歌DeepMind CEO Hassabis近日對外媒Wired表示，Gemini還在開發中，還需要幾個月，而谷歌DeepMind已經準備砸進數千萬美元，甚至數億。

The Information最近的一篇報道表述：谷歌的研究人員一直在使用YouTube來開發Gemini。

人工智能從業者表示：這可能是谷歌DeepMind的一個優勢，因為它可以“比抓取視頻的競爭對手更完整地訪問視頻數據”。

見智點評：

Google或是受到上一代聊天機器人Bard發布會重大失誤的刺激，目前對Gemini給予了厚望，希望不僅僅是對標ChatGPT，更想要超越，所以在訓練下一代聊天機器人時候，更側重多模態訓練，特別是視頻數據投喂，這點目前是ChatGPT所做不到的，也是Google想要的差異化市場競爭，大廠對大模型的爭奪仍在繼續。

2、PrivateGPT 開源模型可實現不連網提問；本地部署未來空間大

開發者Iván Martínez Toro發布了PrivateGPT開源模型，該模型允許用戶在無需互聯網連接的情況下，通過提供自己的文檔來向模型提問。

PrivateGPT可以在家用設備上進行本地運行，使用前需要下載名為"gpt4all"的開源大語言模型（LLM）。用戶需要將所有相關文件放入一個目錄中，以供模型引入所有數據。完成LLM的訓練后，用戶可以向模型提出任何問題，它將使用提供的文檔作為上下文來回答。PrivateGPT能夠處理超過58000個單詞，目前需要大量本地計算資源（推薦使用高端CPU）進行設置。

Toro表示，當前PrivateGPT處于概念驗證（PoC）階段，它至少證明了可以在本地創建類似于ChatGPT的大模型?？梢灶A見，一旦這種PoC轉變為實際產品，PrivateGPT將具備讓公司獲得個性化、安全和私密的ChatGPT來提高生產力的潛力。

見智點評：

PrivateGPT開啟行業對本地化部署的重視程度，這對于那些關注數據隱私和安全的行業和個人非常重要。通過本地化部署，用戶可以更好地控制和保護他們的數據，減少了數據泄露和侵犯隱私的風險；開源模型和本地化部署將在未來產生積極的影響。

3、恒生電子發布金融行業大模型LightGPT，金融大模型場景多樣化，需求確定性強

LightGPT可以為投顧、客服、投研、運營、風控、合規、研發等金融業務場景提供底層AI能服務，支持超過80+金融專屬任務指令微調。具備金融專業問答、邏輯推理、超長文本處理能力、多模態交互能力、代碼處理等能力；

模型使用了超4000億tokens的金融領域數據（包括資訊、公告、研報、結構化數據等）和超過400億tokens的語種強化數據（包括金融教材、金融百科、政府報告、法規條例等），并以之作為大模型的二次預訓練語料。

LightGPT擁有更為豐富、輕量化的部署方式，支持私有化/云部署以及靈活API調用，推理端僅需一機2卡部署。

見智點評:

一方面基于數據安全，一方面基于應用場景多樣化，金融大模型的需求確定性很強。

此前彭博已推出金融行業大語言模型BloombergGPT；騰訊云也正在攜手神州信息開展金融大模型合作；此前我們也作過多次金融大模型發展的動態點評，很多券商、銀行和基金公司都在進行AI研發投入，以及AI產品的推出；恒生電子基于此前金融行業多年的IT服務經驗，本次推出LightGPT大模型具有重要意義，之后我們也會繼續跟進LightGPT開放測試之后的體驗反饋。

4、智譜AI為大模型應用更近一步！成為法律專用大模型底座

冪律聯合智譜AI發布基于中文千億大模型的法律垂直大模型——PowerLawGLM，聚焦于法律細分領域，針對中文法律場景的應用效果具有獨特優勢，具備豐富的法律知識和法律語言理解能力。

基于PowerLawGLM大模型的能力，冪律還打造了法律對話產品ChatMe，現已正式上線，首批開放50個內測名額

PowerLawGLM是基于智譜的ChatGLM 130B通用千億對話大模型進行聯合研發，經過多輪多次高質量法律文本數據（裁判文書、法律法規、法律知識問答等）清洗及模型增量訓練，得到法律版基座大模型LawGLM 130B。在100個問題的評測結果上來看：PowerLawGLM可實現70%左右的最優答案。

見智點評：

大模型如果直接應用在法律領域，會存在輸出結果與需求很嚴重不匹配程度很高的問題。因為大模型的數據結果是基于數據訓練來生成的，但是不同國家的法律規則是完全不同的，具有很強的專業性和區域限制，所以采用全球通用大模型很難得到滿意的內容。

中文千億大模型的法律垂直大模型PowerLawGLM就能夠很好的適配我國的案例情況。中文法律大模型僅僅是一個開始，未來很多行業都會陸續推出專業領域的大模型，同時會基于垂直大模型打造人工智能對話產品。智譜AI做為最底層模型，對于開發專業領域大模型具有重要意義；之前還開源過一個更小容量的ChatGLM-6B模型，特別適合學習和輕量開發；另外最值得關注的是大模型訓練中如何平衡訓練穩定性和效率。