當前位置: 妍妍網 > 碼農

直播預約|ByteDance AI Luminary Talks:世界模型探索

2024-07-18碼農

歡迎加入字節跳動 7 月 19 日舉辦的 AI 技術菁英論壇(ByteDance AI Luminary Talks),共同探討「世界模型探索:視訊和 3D 生成與理解模型」的相關話題和最新的技術進展。本次活動將配有中文同聲傳譯,並將在 豆包大模型團隊 機器之心 量子位 字節跳動技術團隊 稀土金塊 InfoQ 的微信視訊號上同步直播,歡迎掃描圖中二維碼預約, 周五下午 4:00-8:30 我們不見不散!

0 1


預約直播

02


詳細日程


3:30-4:00 PM 簽到入場

4:00-4:10 PM 歡迎致辭

馮佳時,字節跳動豆包大模型視覺基礎研究團隊負責人

4:10-4:30 PM

多模態生成式 AI 與基礎模型

劉子緯(Ziwei Liu),南洋理工大學計算與數據科學學院助理教授

演講摘要

在更廣泛的現實世界的套用中生成逼真且可控的視覺內容一直是人工智慧(AI)長期追求的目標。它也是具身智慧的核心。在本次演講中,我將討論我們在 AI 驅動的人類、物體和場景的視覺上下文生成方面的工作,重點是結合神經渲染的強大功能與大型多模態基礎模型。我們的生成式 AI 框架已在廣泛的任務上展示了其有效性和泛化能力。

4:30-5:00 PM

Depth Anything: 單目深度估計的基礎模型

Bingyi Kang, 字節跳動 研究科學家

演講摘要

Depth Aything 提出了一種單目深度估計技術,能更有效地從 2D 影像中辨識出深度資訊圖。基於這些深度資訊圖,普通的 2D 影像便可轉化為 3D 影像。相比此前已有技術,DepthAnything 在提升深度圖的品質方面取得重大突破。此技術的套用將使得 TikTok 平台上現有的海量 2D 影像能夠輕松轉化為 3D 影像,讓普通手機拍攝的 2D 影像「一鍵轉 3D」,或將大幅推進 XR 產業的發展。

5:00-5:30 PM

Magic-Boost: 透過多檢視條件擴散提升 3D 生成

張健鋒,字節跳動研究科學家

演講摘要

得益於二維擴散模型的快速發展,近期三維內容創作取得了顯著進展。一個有前景的解決方案是利用預訓練的二維擴散模型來生成多視角影像,然後將這些影像轉化為精確的三維模型。然而,由於存在一定的不一致性,這類方法生成的結果仍然缺乏復雜的紋理和幾何結構。為了解決這個問題,我們提出了 Magic-Boost,這是一個多視角條件擴散模型,它能夠透過短暫的最佳化期(約 15 分鐘)顯著改善粗糙的生成結果。與之前的方法相比,Magic-Boost 展現出了強大的能力,能從偽合成的多視角影像中生成高度一致的影像。它提供了精確的指導,與輸入影像的身份對齊,從而豐富了初始生成結果的局部幾何和紋理細節。

5:30-6:40 PM 晚餐 & 交流

6:40-7:10 PM

多模態視訊理解與生成

壽政(Mike Shou Zheng),新加坡國立大學助理教授

演講摘要

在這次演講中,我將介紹我們在視訊理解和生成方面的最新研究,並分享我對未來發展的思考。在理解方面,我將介紹多智慧體系統 AssistGUI,它透過學習教學視訊就可以在桌面上自動化完成復雜的圖形化使用者介面(GUI)任務。為了構建以視覺為中心的多模態大型語言模型(MLLMs),我們開發了 VisInContext,它將文本標記轉換為視覺標記,顯著增加了 MLLMs 的上下文長度和效率。對於視訊生成的逆問題,我將介紹我們在長視訊生成方面的工作 MagicAnimate,MagicAnimate 在人類影像動畫方面表現出色,具有改進的時間一致性和保真度。

7:10-7:40 PM

連續高動態的長視訊生成方案探索

周大權,字節跳動研究科學家

演講摘要

生成真實、連續、大振幅的長視訊目前仍為業界存在的挑戰性問題。本報告從數據集生成,視訊生成模型演算法設計以及計算開銷三個角度,探討如何設計高效,時序連續並且具備完整故事表達能力的視訊生成架構。

7:40-8:10 PM

InstaDrag: 從視訊數據中學習快且精準的拖拽式編輯

廖俊豪(Liew Jun Hao),字節跳動研究科學家

演講摘要

近年來,基於生成模型的影像編輯方法收到了廣泛的關註。然而,大多現有方法缺乏進行精細空間控制的能力。本報告提出 InstaDrag,一種能在~1 秒內完成高品質拖拽式編輯的影像編輯方案,並探討如何利用自然視訊中豐富的運動資訊去學習拖拽式編輯。

8:10-8:30 PM 合影 + 交流

點選下方【預約】,獲取開播提示