【AI News | 20250306】每日AI进展

Cohere 的非营利研究实验室推出 Aya Vision，一款开源多模态 AI 模型，提供 8B 和 32B 版本，支持 23 种语言，可通过 WhatsApp 免费使用。该模式基于豆包1.5模型，融合思维链（COT）理念，通过RL算法和Test Time Scaling优化，展示AI完整的逻辑链条，包括自我质疑与错误修正，提升透明性与信任度。QwQ-32B基于大规模强化学习训练的，不同于预训练

三道杠卷胡

1165人浏览 · 2025-03-06 23:37:33

三道杠卷胡 · 2025-03-06 23:37:33 发布

AI Repos

1、HunyuanVideo-I2V
腾讯最新混元I2V模型来了，HunyuanVideo-I2V已开源，图生视频能力强，视频流畅衔接的比较自然。支持720P分辨率，最长129帧视频生成。可定制LoRA训练，创建自定义特效，比如头发长长、拥抱等特效。
在这里插入图片描述

2、Spark-TTS
支持零样本语音克隆和细粒度语音控制的一款TTS：Spark-TTS，可以控制语速快慢，声音高低，也可以跨语言生成，效果不错。采用BiCodec单流语音编解码器，把语音分解成语义和说话人属性两种标记，结合Qwen-2.5思维链技术，来实现高质量可控的语音生成。语音能力自然很不错，可以做有声读物了。
在这里插入图片描述

3、QwQ-32B
阿里开源了其最新推理模型：QwQ-32B，32B，媲美DeepSeek-R1。数学推理、编程以及通用能力优秀。QwQ-32B基于大规模强化学习训练的，不同于预训练和后训练方法，强化学习让模型在与环境的交互中学习，更有效的提升推理能力。此外，模型中集成了与Agent相关的能力，使其能在使用工具的同时进行批判性思考，能根据环境反馈调整推理过程。
在这里插入图片描述

4、viral-predictor
一款可预测社交平台爆款帖子的开源工具：Viral Predictor。帮助自媒体创作者在发布内容前，通过 AI 模拟成千上万用户，对不同 A/B 版本的内容做出可能反应。给出点赞、评论、分享等互动指标，同时提供统计置信度评分和实时互动可视化。

5、repomix
一款将代码库打包成 AI 友好格式的高效工具：Repomix。一键将整个代码仓库打包成单个文件，便于输入到Claude、ChatGPT、DeepSeek等大型语言模型中进行分析或处理。支持遵循 .gitignore 规则、远程仓库处理、Token计数等功能，并内置安全检测，防止敏感信息泄露。
在这里插入图片描述

AI News

1、DiffRhythm 谛韵: 开源音乐生成模型
DiffRhythm，中文名谛韵，是由西北工业大学音频、语音与语言处理研究组（ASLP Lab）开发的一种 AI 音乐生成模型。作为全球首个基于潜在扩散技术（Latent Diffusion）的端到端完整歌曲生成模型，DiffRhythm 只需要 8GB VRAM 就能在 10 到 12 秒内生成一首完整歌曲，目前仅支持中英文。DiffRhythm 能够一次性生成包含人声和伴奏的完整歌曲，就像 Suno 和 Udio 一样，最长能生成 4 分 45 秒的完整歌曲。DiffRhythm 完全开源，佬们可以在HF上在线体验玩玩看。

2、ComfyUI-Pruna：无损加速 Stable Diffusion 和 Flux 模型推理
ComfyUI-Pruna 提供了一个ComfyUI的自定义编译节点，能够显著加速 Stable Diffusion（SD）和 Flux 模型的推理过程，同时保持输出质量基本不变。官方基准测试显示，使用 Pruna 的 “x-fast” 和 “torch_compile” 编译模式，每秒迭代次数（IPS）得到了显著提升，尤其是对 SD 的加速效果尤为明显。

3、LTX-Video 0.9.5：开源可商用视频生成模型
LTX-Video 是由 Lightricks 开发的一款基于 AI 的开源视频生成模型，昨天发布了 0.9.5 版本。这个版本支持了商业用途，还新增了首尾帧视频生成，最高可生成 5 秒视频。此外，还支持了对 AMD ROCm 的支持。

4、TheoremExplainAgent：AI 驱动的数学与科学教学动画
TheoremExplainAgent（简称 TEA）是由 TIGER AI Lab 开发的一款 AI 多智能体，专门设计用于将复杂的数学和科学定理转化为易于理解的 Manim 教学动画，每段动画时长能超过 5 分钟。TEA 背后结合了大语言模型（LLM）的推理能力、Manim 动画技术以及语音合成技术。

5、谷歌推出基于 Gemini 2.0 的 AI Mode 测试版
Google 在其搜索中引入了两项重要的 AI 功能升级：AI Overviews 的扩展和新的 AI Mode 测试版。AI Overviews 相信大家在搜索时会经常碰到，而 AI Mode 是基于 Gemini 2.0 的定制版本，有点类似 Deep Research，能够通过更高级的推理、思考和多模态能力帮助用户解决搜索问题。目前，AI Mode 还在实验阶段，你可以在Google Lab中申请体验。

6、Portkey AI Gateway：轻松整合多种大语言模型的开源AI解决方案
Portkey AI Gateway 是一款开源工具，旨在简化开发者整合和管理多模态AI模型的流程。它提供统一的API接口，支持大型语言模型（LLM）及视觉、音频、图像生成等功能，兼容Anthropic、OpenAI等多个供应商。Portkey解决供应商锁定、负载均衡缺失等问题，通过内置负载均衡和条件路由优化性能，开发者无需修改代码即可切换模型。其开源特性鼓励社区协作，代码示例展示其简化工作流的能力。对于追求灵活高效的AI应用开发者，Portkey是一个值得关注的解决方案。

7、Cohere发布全新多模态AI模型Aya Vision，提供32B和8B两个版本
Cohere 的非营利研究实验室推出 Aya Vision，一款开源多模态 AI 模型，提供 8B 和 32B 版本，支持 23 种语言，可通过 WhatsApp 免费使用。该模型擅长图片说明、视觉问答、文本翻译与摘要生成，旨在缩小多语言模型性能差距。Aya Vision 32B 在视觉理解基准中超越大模型，8B 版同样表现出色。采用合成标注训练提升效率，Cohere 还发布 AyaVisionBench 基准，助力跨语言与多模态评估，推动研究社区发展。模型在 Hugging Face 上开放，限非商业用途。

8、多模态检索新突破！智源开源多模态向量模型BGE-VL
2025年3月6日，北京智源人工智能研究院发布开源多模态向量模型BGE-VL，凭借合成数据集MegaPairs在图文检索和组合图像检索中取得突破。MegaPairs通过多模态模型和大语言模型从海量数据中挖掘高质量三元组，仅需1/70数据量即超越传统标注效果。BGE-VL推出Base、Large和MLLM三款模型，在MMEB和CIRCO评测中刷新纪录，零样本与微调性能均领先，超越谷歌MagicLens等基线。项目开源于GitHub，提供2600万样本支持，为多模态检索领域树立新标杆。

9、谷歌发布Whisk Animate预览版：将图像转化为 8 秒动画短片
谷歌Labs推出Whisk Animate预览版，结合Veo2模型将静态Whisk图像转化为8秒动态视频，在X平台引发热议。Whisk基于Gemini和Imagen3，支持图像生成与混搭，而Whisk Animate利用Veo2的物理理解和高清输出能力，进一步赋予图像生命。早期测试者如@MarkSab
称其“惊艳”，半小时即制作音乐视频短片。尽管公开发布日期未定，这一工具已展示从静态到动态创作的潜力，助力创意产业并强化谷歌在生成式AI领域与OpenAI Sora等对手的竞争。

10、豆包上线深度推理模式：AI逻辑链条可视化，问答搜索新突破
字节跳动近日为其AI助手豆包推出“深度思考”推理模式，革新问答、搜索、写作和阅读体验。该模式基于豆包1.5模型，融合思维链（COT）理念，通过RL算法和Test Time Scaling优化，展示AI完整的逻辑链条，包括自我质疑与错误修正，提升透明性与信任度。此功能模拟人类思考，增强智能化与人性化，不仅优化豆包性能，还为用户带来全新交互体验，预示AI在多场景应用的广阔前景。

11、IBM 推出小型AI模型 Granite 3.2 ，强调高效推理与实用性
IBM 最新发布的 Granite 3.2 大型语言模型，聚焦“小巧、高效、实用”，为企业和开源社区提供多模态与推理能力。其视觉语言模型（VLM）在文档处理上媲美 Llama 3.2 11B 等大模型，8B 模型在数学推理中表现卓越。新增“思维链”功能可开关调节效率，“Granite Guardian”缩小30%仍保持性能，引入“可言语化信心”提升风险评估。基于 Docling 工具包训练，处理8500万PDF与2600万问答对，另推出 TinyTimeMixers 模型，支持两年时间序列预测，展现企业AI新潜力。

12、火爆的Manus：首个通用智能体
3月6日，全球首款通用AI智能体Manus入驻微博，引发热议。作为Monica推出的“手脑并用”助手，Manus无需复杂指令即可完成简历筛选、旅行规划、数据分析等多样任务，直接交付结果，获称职场与生活效率神器。其自主性超越传统AI，预示人机协作新范式，甚至AGI潜力。因需邀请码试用，市场炒至5万元天价。合伙人张涛澄清未设付费渠道，将专注产品完善，逐步释放邀请码，平息炒作争议，未来更多用户有望体验其强大功能。

13、月薪14万的博士级Agent要来了！OpenAI新计划曝光
OpenAI计划推出三档AI Agent，瞄准高端商业应用：第一档2000美元/月（约1.4万人民币）服务高收入知识工作者；第二档10000美元/月专注软件开发；第三档20000美元/月（约14万人民币）提供博士级研究支持。Agent预计贡献20%-25%长期收益，获软银30亿美元投资背书。此举标志OpenAI从消费级ChatGPT转向企业市场，与Anthropic竞争加剧。网友质疑价格离谱，称“博士都不值这价”，除非实现AGI，否则难以服众，凸显AI商业化与使命间的矛盾。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f

2048 AI社区

【信创-k8s】海光/兆芯+银河麒麟V10离线部署k8s1.31.8+kubesphere4.1.3

介于V4优秀的LuBan架构，核心组件非常少，资源占用也显著降低，同时带来众多功能和便利性。：使用海光3350/兆芯开先KX-5000芯片，麒麟V10 SP3操作系统，以及Containerd 1.7.13、Kubernetes v1.31.8、KubeSphere v4.1.3等软件版本。原创编写，详细记录了从环境准备到平台验证的完整流程，为信创环境下的Kubernetes与KubeSphere