AI Repos

1、HunyuanVideo-I2V
腾讯最新混元I2V模型来了,HunyuanVideo-I2V已开源,图生视频能力强,视频流畅衔接的比较自然。支持720P分辨率,最长129帧视频生成。可定制LoRA训练,创建自定义特效,比如头发长长、拥抱等特效。
在这里插入图片描述

2、Spark-TTS
支持零样本语音克隆和细粒度语音控制的一款TTS:Spark-TTS,可以控制语速快慢,声音高低,也可以跨语言生成,效果不错。采用BiCodec单流语音编解码器,把语音分解成语义和说话人属性两种标记,结合Qwen-2.5思维链技术,来实现高质量可控的语音生成。语音能力自然很不错,可以做有声读物了。
在这里插入图片描述

3、QwQ-32B
阿里开源了其最新推理模型:QwQ-32B,32B,媲美DeepSeek-R1。数学推理、编程以及通用能力优秀。QwQ-32B基于大规模强化学习训练的,不同于预训练和后训练方法,强化学习让模型在与环境的交互中学习,更有效的提升推理能力。此外,模型中集成了与Agent相关的能力,使其能在使用工具的同时进行批判性思考,能根据环境反馈调整推理过程。
在这里插入图片描述

4、viral-predictor
一款可预测社交平台爆款帖子的开源工具:Viral Predictor。帮助自媒体创作者在发布内容前,通过 AI 模拟成千上万用户,对不同 A/B 版本的内容做出可能反应。给出点赞、评论、分享等互动指标,同时提供统计置信度评分和实时互动可视化。

5、repomix
一款将代码库打包成 AI 友好格式的高效工具:Repomix。一键将整个代码仓库打包成单个文件,便于输入到Claude、ChatGPT、DeepSeek等大型语言模型中进行分析或处理。支持遵循 .gitignore 规则、远程仓库处理、Token计数等功能,并内置安全检测,防止敏感信息泄露。
在这里插入图片描述

AI News

1、DiffRhythm 谛韵: 开源音乐生成模型
DiffRhythm,中文名谛韵,是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)开发的一种 AI 音乐生成模型。作为全球首个基于潜在扩散技术(Latent Diffusion)的端到端完整歌曲生成模型,DiffRhythm 只需要 8GB VRAM 就能在 10 到 12 秒内生成一首完整歌曲,目前仅支持中英文。DiffRhythm 能够一次性生成包含人声和伴奏的完整歌曲,就像 Suno 和 Udio 一样,最长能生成 4 分 45 秒的完整歌曲。DiffRhythm 完全开源,佬们可以在HF上在线体验玩玩看。

2、ComfyUI-Pruna:无损加速 Stable Diffusion 和 Flux 模型推理
ComfyUI-Pruna 提供了一个ComfyUI的自定义编译节点,能够显著加速 Stable Diffusion(SD)和 Flux 模型的推理过程,同时保持输出质量基本不变。官方基准测试显示,使用 Pruna 的 “x-fast” 和 “torch_compile” 编译模式,每秒迭代次数(IPS)得到了显著提升,尤其是对 SD 的加速效果尤为明显。

3、LTX-Video 0.9.5:开源可商用视频生成模型
LTX-Video 是由 Lightricks 开发的一款基于 AI 的开源视频生成模型,昨天发布了 0.9.5 版本。这个版本支持了商业用途,还新增了首尾帧视频生成,最高可生成 5 秒视频。此外,还支持了对 AMD ROCm 的支持。

4、TheoremExplainAgent:AI 驱动的数学与科学教学动画
TheoremExplainAgent(简称 TEA)是由 TIGER AI Lab 开发的一款 AI 多智能体,专门设计用于将复杂的数学和科学定理转化为易于理解的 Manim 教学动画,每段动画时长能超过 5 分钟。TEA 背后结合了大语言模型(LLM)的推理能力、Manim 动画技术以及语音合成技术。

5、谷歌推出基于 Gemini 2.0 的 AI Mode 测试版
Google 在其搜索中引入了两项重要的 AI 功能升级:AI Overviews 的扩展和新的 AI Mode 测试版。AI Overviews 相信大家在搜索时会经常碰到,而 AI Mode 是基于 Gemini 2.0 的定制版本,有点类似 Deep Research,能够通过更高级的推理、思考和多模态能力帮助用户解决搜索问题。目前,AI Mode 还在实验阶段,你可以在Google Lab中申请体验。

6、Portkey AI Gateway:轻松整合多种大语言模型的开源AI解决方案
Portkey AI Gateway 是一款开源工具,旨在简化开发者整合和管理多模态AI模型的流程。它提供统一的API接口,支持大型语言模型(LLM)及视觉、音频、图像生成等功能,兼容Anthropic、OpenAI等多个供应商。Portkey解决供应商锁定、负载均衡缺失等问题,通过内置负载均衡和条件路由优化性能,开发者无需修改代码即可切换模型。其开源特性鼓励社区协作,代码示例展示其简化工作流的能力。对于追求灵活高效的AI应用开发者,Portkey是一个值得关注的解决方案。

7、Cohere发布全新多模态AI模型Aya Vision,提供32B和8B两个版本
Cohere 的非营利研究实验室推出 Aya Vision,一款开源多模态 AI 模型,提供 8B 和 32B 版本,支持 23 种语言,可通过 WhatsApp 免费使用。该模型擅长图片说明、视觉问答、文本翻译与摘要生成,旨在缩小多语言模型性能差距。Aya Vision 32B 在视觉理解基准中超越大模型,8B 版同样表现出色。采用合成标注训练提升效率,Cohere 还发布 AyaVisionBench 基准,助力跨语言与多模态评估,推动研究社区发展。模型在 Hugging Face 上开放,限非商业用途。

8、多模态检索新突破!智源开源多模态向量模型BGE-VL
2025年3月6日,北京智源人工智能研究院发布开源多模态向量模型BGE-VL,凭借合成数据集MegaPairs在图文检索和组合图像检索中取得突破。MegaPairs通过多模态模型和大语言模型从海量数据中挖掘高质量三元组,仅需1/70数据量即超越传统标注效果。BGE-VL推出Base、Large和MLLM三款模型,在MMEB和CIRCO评测中刷新纪录,零样本与微调性能均领先,超越谷歌MagicLens等基线。项目开源于GitHub,提供2600万样本支持,为多模态检索领域树立新标杆。

9、谷歌发布Whisk Animate预览版:将图像转化为 8 秒动画短片
谷歌Labs推出Whisk Animate预览版,结合Veo2模型将静态Whisk图像转化为8秒动态视频,在X平台引发热议。Whisk基于Gemini和Imagen3,支持图像生成与混搭,而Whisk Animate利用Veo2的物理理解和高清输出能力,进一步赋予图像生命。早期测试者如@MarkSab
称其“惊艳”,半小时即制作音乐视频短片。尽管公开发布日期未定,这一工具已展示从静态到动态创作的潜力,助力创意产业并强化谷歌在生成式AI领域与OpenAI Sora等对手的竞争。

10、豆包上线深度推理模式:AI逻辑链条可视化,问答搜索新突破
字节跳动近日为其AI助手豆包推出“深度思考”推理模式,革新问答、搜索、写作和阅读体验。该模式基于豆包1.5模型,融合思维链(COT)理念,通过RL算法和Test Time Scaling优化,展示AI完整的逻辑链条,包括自我质疑与错误修正,提升透明性与信任度。此功能模拟人类思考,增强智能化与人性化,不仅优化豆包性能,还为用户带来全新交互体验,预示AI在多场景应用的广阔前景。

11、IBM 推出小型AI模型 Granite 3.2 ,强调高效推理与实用性
IBM 最新发布的 Granite 3.2 大型语言模型,聚焦“小巧、高效、实用”,为企业和开源社区提供多模态与推理能力。其视觉语言模型(VLM)在文档处理上媲美 Llama 3.2 11B 等大模型,8B 模型在数学推理中表现卓越。新增“思维链”功能可开关调节效率,“Granite Guardian”缩小30%仍保持性能,引入“可言语化信心”提升风险评估。基于 Docling 工具包训练,处理8500万PDF与2600万问答对,另推出 TinyTimeMixers 模型,支持两年时间序列预测,展现企业AI新潜力。

12、火爆的Manus:首个通用智能体
3月6日,全球首款通用AI智能体Manus入驻微博,引发热议。作为Monica推出的“手脑并用”助手,Manus无需复杂指令即可完成简历筛选、旅行规划、数据分析等多样任务,直接交付结果,获称职场与生活效率神器。其自主性超越传统AI,预示人机协作新范式,甚至AGI潜力。因需邀请码试用,市场炒至5万元天价。合伙人张涛澄清未设付费渠道,将专注产品完善,逐步释放邀请码,平息炒作争议,未来更多用户有望体验其强大功能。

13、月薪14万的博士级Agent要来了!OpenAI新计划曝光
OpenAI计划推出三档AI Agent,瞄准高端商业应用:第一档2000美元/月(约1.4万人民币)服务高收入知识工作者;第二档10000美元/月专注软件开发;第三档20000美元/月(约14万人民币)提供博士级研究支持。Agent预计贡献20%-25%长期收益,获软银30亿美元投资背书。此举标志OpenAI从消费级ChatGPT转向企业市场,与Anthropic竞争加剧。网友质疑价格离谱,称“博士都不值这价”,除非实现AGI,否则难以服众,凸显AI商业化与使命间的矛盾。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐