Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略,基于预测网络数据中的运动信息来生成人类视频,并将视频用在引导机器人执行新任务。策略基于大量可用的网络视频数据,避免直接生成机器人视频的复杂性。...
-
-
Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型,能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型(LLM),将文本和视频信息整合为统一序列,用渐进式短到长训练方案与损失重新加...
-
Illuminate 是一个由谷歌开发的项目,能将学术论文转化为人工智能生成的音频讨论。项目基于谷歌强大的语言模型 Gemini,将论文内容转换成引人入胜的对话,使用户能在运动、开车等碎片时间里轻松学习。...
-
MLE-bench 是 OpenAI 推出的一个基准测试工具,旨在衡量AI代理(AI Agent)在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务,覆盖自然语言处理、计算机视觉和信号处理等多个领域。A...
-
GTSinger是由浙江大学研究团队推出的大型开源高质量歌声数据集,旨在支持多样化的歌声任务。GTSinger包含80.59小时的专业录音棚录制的歌声,涵盖九种不同语言(汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意...
-
ScriptViz是由斯坦福大学研究人员推出的一款剧本可视化辅助工具,基于大型电影数据库MovieNet,根据剧本文本和对话检索出相匹配的电影画面,将编剧的文字描述转换成具体的视觉图像。工具提供对视觉元素的精确控制,支持编剧...
-
LightRAG是由香港大学研究团队推出的一种检索增强生成(Retrieval-Augmented Generation, RAG)系统,基于整合图结构索引和双层检索机制,提升大型语言模型在信息检索中的准确性和效率。系统能捕...
-
CursorCore是一个基于大型语言模型(LLMs)的编程辅助框架,用对话式交互帮助程序员更高效地编写和修改代码。框架整合编程过程中的各种信息,包括代码历史、当前代码和用户指令,预测所需的代码修改,减少程序员的工作量。...
-
Surya是一款功能强大的开源OCR(光学字符识别)工具包,专门设计用在文档识别,支持超过90种语言的识别。Surya能准确识别出文档中的文本,分析文本的阅读顺序,检测文档中的布局元素,如表格、图片和标题,及识别和解析表格内...
-
MM1.5是苹果公司推出的多模态大型语言模型,旨在增强文本丰富图像理解、视觉指代和定位以及多图像推理能力。模型基于数据为中心的训练方法,在大规模预训练、高分辨率OCR数据持续预训练及优化的视觉指令微调,实现从1B到30B参数...