微軟深夜拯救「打工人」：自訂Copilot、多模態小模型出奇招，Altman「閃現」劇透新模型

2024-05-22資訊

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

這邊國內 AI 大模型瘋狂地打起了「價格戰」，那邊國外用 AI 模型和生產力較起了勁，甚至「內卷」得可怕。

這不，昨天淩晨，微軟剛召開一場釋出會，提前推出搭載高通 Snapdragon X Elite 和 X Plus 的全新 AI PC 品牌，不僅與蘋果 M3 MacBook Air 在效能上進行了正面較量，還展示了新芯片的 NPU 具備每秒 45 萬億次運算（TOPS）的能力，解鎖了一系列新的 Copilot 功能。

僅在一天後，台北時間 5 月 22 日淩晨 12 點，微軟又正式拉開了 Build 2024 的帷幕。這一場專屬開發者的盛會，在微軟 CEO 薩蒂亞·納德拉（Staya Nadella）、微軟體驗+裝置執行副總裁 Rajesh Jha、微軟人工智慧執行副總裁兼技術長 Kevin Scott 等高管主導下，勢要掀起 AI 生產力的革命。

在釋出會的最後，出乎意料的是，最近剛忙完 GPT-4o 以及深陷輿論漩渦的 OpenAI CEO 阿特曼也出現在了現場，還小小地劇透了一下新模型的方向。

微軟正在讓 Copilot 變得無處不在

「感覺我們好像回到了 30 年前第一次討論 Win 32 的時刻，如今 AI 正在重塑「技術堆疊的每一層」」，微軟 CEO 納德拉於大會伊始如是說道。

他表示，微軟幾十年來有兩個夢想：

電腦能否理解我們，而不是我們必須理解電腦？
在一個資訊不斷增加的世界中，電腦能否幫助我們根據所有這些資訊更有效地進行推理、計劃和行動？

對此，納德拉將這波 AI 浪潮定位為微軟夢想的答案。站在 AI 新時代的風口，微軟已經構建了三個平台：

Microsoft Copilot，作為 AI 日常伴侶，使得專業知識觸手可及；

Copilot+PC，有史以來最快的 AI PC；

Copilot Stack，方便開發者可以構建 AI 應用程式、解決方案和體驗。

而這場 Build 2024 也主要圍繞這三個平台展開。

為 Windows 下一個十年設定方向的 Copilot+PC

微軟 Windows、裝置部門副總裁 Pavan Davuluri 表示，Copilot+PC 正在「重新定義你可以在 PC 上執行的操作，並為 Windows 下一個十年設定方向。」關於新一代 Copilot+PC，可詳見昨日報道。

今天，基於最新釋出的 Copilot+PC，微軟推出了 Windows Copilot Runtime，納德拉聲稱這將「使 Windows 成為人們構建人工智慧應用程式的最佳平台」。

簡單來看，Windows Copilot Runtime 將 Copilot 堆疊拓展到 Windows 系統，它也是 Windows 11 系統的全新組成部份。

該執行時包含了 Windows Copilot 庫以及可以隨時可用的本地 API，它為開發者提供了現在可以存取的一系列語言模型，做到至少 40 種語言模型「開箱即用」。當然這 40 款模型中也覆蓋了在這次大會上微軟最新釋出的 SLM（小模型）Phi-Silica，可在 Copilot+ PC 的 NPU 上執行，為裝置帶來更快的推理等 AI 體驗。

據悉，Phi-Silica 是一個 33 億個參數的模型，這也使其成為 Phi 系列 AI 模型中最小的一個。

該庫還允許你將 RAG（檢索增強生成）納入裝置應用程式，來處理裝置上的數據。

得益於該執行時，Copilot+ PC 可在裝置上透過 Windows Direct ML 原生支持 PyTorch 和 Web 神經網路，這將為開發人員提供更多可用的工具。

展望未來，微軟表示，該執行時也會被 Xbox 團隊運用來為玩家和遊戲開發人員提供支持。在官方展示的遊戲範例中，我們看到有人向 Copilot 詢問如何完成遊戲中任務的視訊，人工智慧代理提供了幫助。

Copilot Stack

作為一家平台公司，納德拉表示，微軟的目標是構建最完整的端到端堆疊，從基礎設施到基礎模型、數據再到工具、應用程式可延伸性，這樣開發者就可以套用這些強大功能來構建自己的應用程式。

在這次釋出會上，微軟也從下往上詳細分享了 Copilot 的技術棧。

基礎設施

首先，在技術棧最底層的基礎設施層面，納德拉表示，微軟擁有「世界上最全面的人工智慧基礎設施」。從數據上來看，Azure 數據中心在全球 60 多個地區提供，微軟希望提供雲服務的永續性。

微軟與輝達合作，這家圖形芯片公司是微軟人工智慧計劃的核心。納德拉透露，微軟將成為首批提供 Nvidia 最新 Blackwell AI 芯片的雲提供商之一，公司「與輝達有著深厚的合作夥伴關系」。

此外，AMD 的 ND MI300X V5 芯片也將針對 Microsoft Azure 工作負載進行最佳化。

基礎模型層： Phi-3 系列中 第一個多模態小模型 Phi-3-vision 來了

再往上一層的基礎模型方面，「透過 Azure AI，我們提供最廣泛的前沿和開源模型選擇，包括 LLM 和 SLM，」納德拉說，「超過 50,000 個組織使用 Azure AI，甚至 GPT-4o 也在 Azure 上進行了訓練」。

目前，OpenAI 的最新旗艦模型 GPT-4o 現已在 Azure OpenAI 服務中全面推出。這一開創性的多模態模型在單一模型中整合了文本、影像和音訊處理功能，為生成式人工智慧和對話式人工智慧體驗樹立了新的標準。GPT-4o 的定價為輸入 5 美元/100 萬個 token，輸出 15 美元/100 萬個 token。

本月早些時候，微軟透過 Azure OpenAI 服務啟用了帶有視覺功能的 GPT-4 Turbo。利用這些新模型，開發人員可以構建具有跨文本、影像等輸入和輸出的應用程式，從而獲得更豐富的使用者體驗。

同時，Azure AI 也支持多款新模型，如 Core42 JAIS、Nixtla TimeGEN-1，未來還將支持 Bria AI、Gretel、NTT DATA、Stability AI 等多款模型。

一直以來，微軟也是小模型的引領者。在釋出會上，微軟釋出了自家開發的 AI 小模型 Phi-3 系列中的 Phi-3-small、Phi-3-medium 和 Phi-3-vision （一種全新的多模態模型，https://huggingface.co/microsoft/Phi-3-vision-128k-instruct）。

Phi-3 模型是目前能力最強、價效比最高的小型語言模型 (SLM)，在各種語言、推理、編碼和數學基準測試中均優於相同大小和更大的模型。這些模型使用高品質的訓練數據進行訓練，Phi-3 模型的推出擴大了 Azure 客戶對高品質模型的選擇範圍，為他們組成和構建生成式人工智慧套用提供了更多實用的選擇。

加上這次最新釋出的，如今 Phi-3 模型系列共有四個模型：

Phi-3-vision 是一個 4.2B 參數的多模態模型，具有語言和視覺功能。

Phi-3-mini 是一個 3.8B 參數的語言模型，有兩種上下文長度（128K 和 4K）。

Phi-3-small 是一個 7B 參數的語言模型，有兩種上下文長度（128K 和 8K）。

Phi-3-medium 是 14B 參數語言模型，有兩種上下文長度（128K 和 4K）。

其中，其中 Phi-3-vision 是 Phi-3 系列中的第一個多模態模型，它將文本和影像結合在一起，並具有對現實世界影像進行推理以及從影像中提取和推理文本的能力。它還針對圖表和圖表理解進行了最佳化，可用於生成見解和回答問題。Phi-3-vision 以 Phi-3-mini 的語言功能為基礎，繼續在小型模型中提供強大的語言和影像推理品質。

Phi-3-vision 可以從圖表中生成見解：

這對經常需要分析數據的「打工人」而言，無疑是一個好訊息。

除了新模型外，微軟還在 API 中添加了新功能，以實作多模態體驗。Azure AI Speech 在預覽版中增加了多項新功能，包括語音分析和視訊轉譯，從而幫助開發人員構建高品質的語音應用程式。Azure AI Search 現在的儲存容量大幅增加，向量索引大小最多可增加 12 倍，而且無需額外費用，即可大規模執行 RAG 工作負載。

此外，微軟還從今天開始向所有開發人員提供一個端到端的開發環境—— Azure AI Studio ，用於構建、訓練和微調 AI 模型，現已全面推出。該專業程式碼平台支持負責任的生成式人工智慧開發，包括開發開發者自己的客製 Copilot 應用程式。無縫開發方法包括友好的使用者介面（UI）和程式碼優先功能，包括 Azure Developer CLI (AZD) 和 VS Code 的 AI Toolkit，使開發人員能夠為自己的計畫選擇最方便的工作流程。

開發人員可以使用 Azure AI Studio 探索 AI 工具，協調多個互操作 API 和模型；正如上文所述，使用檢索增強生成（RAG）技術，利用數據建立模型；測試和評估模型的效能和安全性；以及在生產中進行大規模部署和持續監控。

數據層

在數據層，為了訓練、微調和建立模型，微軟推出了其人工智慧數據分析平台的核心 Microsoft Fabric。它是一款人工智慧工具，旨在減輕開發人員和組織的工作量。隨著 Fabric 新釋出的即時智慧功能，使用者可以享受「關於流數據的即時可操作的見解」。

此外，微軟透過 Azure Cosmos DB for NoSQL 為 Azure Cosmos DB 增加了向量搜尋功能。Azure Cosmos DB 由功能強大的演算法庫 DiskANN 提供支持，這使得 Azure Cosmos DB 成為第一個無需管理伺服器即可在雲規模下提供更低延遲向量搜尋的雲資料庫。

與此同時，目前微軟還推出 Azure AI 的 Azure Database for PostgreSQL 擴充套件、Azure SQL DB 中的 Microsoft Copilot 功能預覽版。

工具鏈

再往技術棧上面一層就是工具鏈。今天，微軟推出多款工具：

適用於 Azure 的 GitHub Copilot 預覽版，擴充套件了 GitHub Copilot 以提高其對所有開發人員的實用性。

AI Toolkit for Visual Studio Code 也於今天開始出了預覽版，它是一個擴充套件，提供開發工具和模型，幫助開發人員獲取和執行模型、在本地微調模型以及部署到 Azure AI Studio，所有這些都來自 VS Code；

.NET Aspire 釋出（https://learn.microsoft.com/zh-cn/dotnet/aspire/fundamentals/setup-tooling?tabs=windows&pivots=visual-studio），這款全新的雲原生堆疊透過自動配置和整合彈性模式簡化了開發過程。有了 .NET Aspire，你可以在使用首選工具的同時，更專註於編碼，減少設定工作。此堆疊包括一個開發人員儀表板，可從一開始就增強可觀察性和診斷性，從而實作更快、更可靠的應用程式開發。

此外，微軟為提高了套用平台服務的易用性標準，推出了 Azure Kubernetes Services (AKS) Automatic （https://learn.microsoft.com/en-us/azure/aks/learn/quick-kubernetes-automatic-deploy?pivots=azure-portal），這是將人工智慧套用投入生產的最簡單的托管 Kubernetes 體驗。作為開發人員，你現在可以存取 AKS Automatic ，該平台可以在幾分鐘內從容器映像轉移到已部署的應用程式，同時仍然讓你能夠存取 Kubernetes API。

安全

在安全維度，納德拉表示，微軟希望將「安全性置於一切之上」，這意味著其將在各種產品的「設計、預設設定和操作」等多個環節來確保人工智慧的安全。

在 Build 2024 上，微軟宣布內容安全方面添加了新功能，包括自訂類別、提示遮蔽和接地檢測。同時，納德拉宣布，Azure AI 自訂模型即將到來，可以讓開發者能夠基於自己所在的領域和數據訓練一個獨特的自訂模型，這些模型可以是專有的。

看 Copilot AI 如何提升生產力？

緊接著，微軟體驗部執行副總裁 Rajesh Jha 進一步詳細地分享了 AI 技術棧引入微軟產品的細節，讓眾人親眼見證 Copilot 是如何提升生產力的。

對於個人開發者而言，微軟重磅宣布為 GitHub Copilot 推出 Copilot Extension。顧名思義，Copilot 擴充套件允許開發者使用第三方技能擴充套件 Copilot。

GitHub Copilot 支持各種各樣的開發工具和平台，包括 DataStax、Docker、MongoDB、Octopus Deploy、Pangea、Pinecone、Product Science、ReadMe、Sentry 和 Stripe。

「我們的目標是：讓 GitHub Copilot 成為最整合、最強大、最智慧的人工智慧平台，為加速人類進步提供無限可能」，GitHub 產品高級副總裁 Mario Rodriguez 表示，「用自然語言編程將繼續降低任何想構建軟體的人的入門門檻。今天，我們離 10 億人可以利用 GitHub Copilot 更近一步，Copilot 作為一個智慧平台，能與開發者技術棧中的任何工具整合，完全使用自然語言。」

這些擴充套件將存在於 GitHub Marketplace 中，但開發人員也可以建立自己的個人擴充套件以與其內部系統和 API 整合。

不過，截至目前，Copilot Extensions 處於內測階段。

從個人過渡到團隊，Copilot 將從三個維度深入，發揮更大作用：

Team Copilot ：將 Copilot 的功能擴充套件到個人助理之外，代表團隊工作，從而改善協作和計畫管理。

Agent ：自訂副駕駛使使用者能夠編排和自動化業務流程。

Copilot 擴充套件和 Copilot 連結器： 可以輕松客製和擴充套件 Copilot 以滿足獨特的業務需求。

團隊中有價值的新成員——Teams Copilot

Team Copilot 將 Copilot 從個人助理擴充套件為有價值的團隊成員--與團隊一起參與並做出貢獻。當然，微軟強調，人類始終可以掌控一切，只需要將任務或職責分配給 Copilot，讓整個團隊一起提高工作效率、協作性和創造力。

在 Microsoft Teams、Microsoft Loop、Microsoft Planner 等協作平台上都可以使用 Teams Copilot。

根據工作場景的不同，可以將 Teams Copilot 分配為不同角色，譬如：

會議主持人：Copilot 透過管理議程和記錄會議中任何人都可以共同撰寫的筆記，使會議討論更有成效。

小組協作者：Copilot 可幫助每個人從聊天中獲得更多資訊，顯示最重要的資訊，跟蹤行動計畫，並解決未解決的問題。

計畫經理：Copilot 可建立和分配任務，跟蹤截止日期，並在需要團隊成員提供意見時通知他們，從而確保每個計畫順利進行。

值得註意的是，這些功能將在 2024 年晚些時候以預覽版的形式提供給擁有 Microsoft Copilot for Microsoft 365 授權證的使用者。

Agent：可實作業務流程自動化的新自訂 Copilot

微軟在 Microsoft Copilot Studio 中釋出新的功能，用於構建自訂的協作機器人，這些機器人可以作為 Agent 在人類的指導下獨立工作，從而實作以下功能：

將長期執行的業務流程自動化。

對操作和使用者輸入進行推理。

利用記憶引入上下文。

根據使用者反饋進行學習。

記錄異常請求並尋求幫助。

微軟表示，Copilot AI Agent 很快可以用作虛擬員工，企業可以用它來執行一些瑣碎的任務，例如監控電子信件、執行一系列自動化任務、幫助員工入職或進行數據輸入，所有這些都無需提示。微軟強調，新的 Copilot 功能不會取代工作——只會取代無聊的部份。

不過這些功能還處於起步階段，微軟希望能在 2024 年晚些時候實作更廣泛的可用性。

此外，微軟還開發了可以讓開發者輕松建立以 SharePoint 和 OneDrive 數據為基礎的自訂協同任務——你的組織知識就存在於這些數據中。

只需點選幾下，從 SharePoint 建立的自訂 Copilot 就能幫助你的團隊在幾秒鐘內從檔中獲取所需的資訊，並可使用 Copilot Studio 進一步編輯和增強。這一新功能目前在「早期存取計劃」中提供，並將於 2024 年晚些時候推出預覽版。

Copilot 擴充套件和連結器

透過新的 Copilot 擴充套件，任何人都能輕松客製 Copilot，並將 Copilot 擴充套件到他們的數據和業務系統。

開發人員可以使用 Copilot Studio 或 Teams Toolkit for Visual Studio 構建這些擴充套件。

同時，微軟還在 Copilot Studio 中引入了 Copilot 連結器，使開發人員能夠更輕松、更快速地建立 Copilot 擴充套件。

OpenAI CEO Sam Altman 驚喜亮相

讓人有些意外的是，本次釋出會的最後，OpenAI CEO Sam Altman 出現在了現場，與微軟 AI 首席技術官兼執行副總裁 Kevin Sco tt 進行了一場簡短的對話。

Sam Altman 上台表示，「開發者一直是過去一年半所發生的事情的核心部份，他們正在做的事情非常驚人。采用速度、人才以及弄清楚如何利用這一切來構建產品的速度都非常快。當我們在 API 中推出 GPT-3 時，有些人覺得它很酷，但套用範圍很窄。然而，看看人們用 GPT-4 所做的事情，以及現在 GPT-4o 的套用情況，盡管它還很新，還沒推出多久，但我從未見過一項技術在如此短的時間內以如此有意義的方式被如此迅速地采用。」

當被問及 OpenAI 未來 GPT 的開發前景時，Altman 認為，「新的模態和整體智慧將是 OpenAI 下一個模型的關鍵... 模型將變得更加智慧」。同時，他指出了 GPT-3、GPT-3.5 和 GPT-4 之間的效能和功能差異，並表示這種進步在未來只會持續下去，提高速度和降低成本是公司的主要關註點。

在釋出會上，Altman 也給出了自己對 AI 時代開發者的建議，「這是一個特殊的時期，所以要充分利用它，現在不是推遲計劃或等待下一個機會的時候...現在是自 2008 年移動繁榮甚至互聯網繁榮以來在初創公司工作的「最激動人心的時刻」。但不要指望人工智慧會為你做所有的工作......人工智慧本身就是一個新的推動者，但它不會自動打破商業規則」。

推薦閱讀：