曾一度在权威AI评测平台Artifical Analysis的AI视频竞技场排行榜上独占鳌头的视频生成模型HappyHorse 1.0,如今我们终于能正式使用官方版本了。现在,只需打开千问APP或千问创作Web端(c.qianwen.com),即可直接体验,甚至还附赠免费试用额度。

不久前,一款名为HappyHorse 1.0的视频生成模型悄然登顶AI视频竞技场排行榜,引发社交媒体热议。直到阿里正式认领这匹“快乐小马”,谜底才被揭开——它出自新成立不到一个月的ATH事业群。今天,阿里正式公布了HappyHorse 1.0的体验渠道,千问官方首发灰测,千问APP和千问创作Web端均可直接使用。

移动端(千问APP):只需将千问更新至最新版本,点击首页的「HappyHorse」胶囊,即可进入HappyHorse 1.0的视频创作面板,千问还赠送了免费体验额度。

PC网页版(千问创作Web端):面向有更专业创作需求的用户,可通过浏览器打开c.qianwen.com登录使用。网页端每次生成消耗积分,综合来看性价比不错。无论是文生视频还是图生视频,均支持最高1080p分辨率,用户可自由选择16:9、9:16或1:1的宽高比,生成时长可选5秒、10秒或15秒,并支持原生生成音频。APPSO第一时间获得了体验资格,评测榜单排名虽能说明结果,但HappyHorse 1.0生成的视频究竟有何优势?让我们通过实测一探究竟。
通过实测,我们发现HappyHorse 1.0并未在复杂的全能参考选项上大做文章,而是将核心发力点集中在动作、声音、空间的自然度上,辅以合理的镜头语言和准确的风格还原,整体表现令人惊艳。 用一句指令,直接搞定运镜和故事板。大多数主流视频模型都将镜头运动视为一个调用库,供用户选择。所谓的镜头运动,更像是从库中随机抽取推进、拉远、旋转等运镜方式,并未配合画面中的具体事件。而镜头感作为视频最重要的组成部分,往往一眼就能看出明显差距,却又难以用具体数值量化。
HappyHorse 1.0的处理方式也颇为出色:切换镜头的时机必须服务于作品。情绪需要收紧时,镜头拉近;需要交代环境时,给出全景;背后是一套有叙事逻辑的调度。同样一个提示词,丢给多个模型生成的视频画面可能都偏向“固定机位”,人物居中,缺乏镜头调度,因为这样最不容易出错,但视频观感大打折扣。而HappyHorse 1.0在生成的视频中,则像一个懂行的摄影指导,运用各种大师级运镜,从全景到近距离跟拍马蹄扬尘,再流畅切换到低角度仰拍拔枪瞬间。
它打破了传统AI视频生成模型“为了稳妥而选择平庸”的安全构图,通过大量扎实的镜头调度,将这段追逐戏的动态张力原原本本地呈现出来。情绪和动作都有了层次感,微表情也能演戏。对于许多视频模型,人物动作是最难解决的问题。即便使用详细的参考生成,后半段仍容易出现变形,如手指多一根、脸部模糊或动作节奏突变。但HappyHorse 1.0在这个硬指标上表现非常稳定:一段5秒的视频,人物动作从头到尾基本保持连贯,穿帮频率明显更低。
举个具体例子,我们用的提示词是:一个穿着白色裙子的女生走在花海里,从画面左边走到右边,镜头跟随,女生转动裙子,捧起一朵花闻。HappyHorse 1.0给出的动作过渡非常自然,女孩在花丛中走路完全没有“太空步”滑移,从转动裙摆到捧起花朵凑近鼻子,整个动作流程行云流水。
动作有层次感,人物表情同样真实。我们生成了一个小朋友咬下酸柠檬的视频:从咬下柠檬的瞬间,到强烈酸味带来面部肌肉紧绷、五官皱起、紧闭双眼,再到酸劲儿逐渐过去,面部肌肉慢慢放松,最后茫然地重新睁大眼睛。通过动作和表情,人物情绪更有层次感,HappyHorse 1.0生成的视频也更不易让人出戏。官方数据显示,HappyHorse 1.0的内部GSB(Good-Significant-Bad人类偏好评分)是Wan2.7的3倍,动作流畅性和清晰度都进步明显。 对话听起来更像真人,环境音也开始参与叙事。除了画面表现,HappyHorse在AI视频配音上的表现也比其他模型更出色。大多数AI视频配音都有一个难以绕开的问题:听上去像在“念”,不像在“说”。语气平淡,语调不随情绪变化;两人对话时,一方说话,另一方只是等待,没有反应或表情变化,像两个人在分别完成任务。
HappyHorse 1.0的处理方式是对白具有情境感:语气和语调贴合画面情绪,惊讶时语调正确,轻松时节奏舒缓。多人对话场景中,听的一方也自然,会有表情和细微的肌肉反应,而非发呆等待下一句。环境音也是如此。书写声、翻页声、远处背景音等细节,在大多数视频模型中要么缺席,要么听上去像从音效库随机抓取。而在HappyHorse 1.0中,这些声音与画面内容匹配,并能参与情绪表达。在安静场景中,一点纸张摩擦声或许比大多数配乐更能带来沉浸感。
还有一个较为小众但实用的能力:多语言唇形同步,覆盖普通话、粤语、英语、日语、韩语、德语、法语等语言。输入中文文本生成人物说话的视频,嘴型就能跟上语音。这一能力的想象空间相当大,从短视频配音到虚拟主播,未来都将派上用场。不需要复杂的风格提示词,轻松拿捏经典影视剧风格。如果说前面关于镜头、动作和声音几点解决的是AI视频的硬件问题——即AI视频不能让人出戏,那么风格的还原则是让最后画面更有戏。它开始用色彩、光影和质感,建立属于创作者的美学氛围。风格的添加也很讲究,不是套一层滤镜或打包好的LUT包,它需要视频模型对不同美学风格的了解,以应用合适的风格化。
HappyHorse 1.0在特定风格的还原上,细节非常扎实。各类经典影视剧风格、老港片里胶片的颗粒感和偏冷的高光,我们在实测生成结果中都能看到。
无论是老水浒/三国画风那种粗粝写实的历史厚重感、光影迷离的经典港风,还是强调高反差冷峻光影的美剧质感、主打细腻柔光的韩剧氛围,它都能精准拿捏。
如果你是对画面质感有追求的创作者,非常推荐去千问里亲自感受这种“导演级”的美学控制力。AI视频赛道需要一匹黑马。告别了动辄半天的视频生成排队,一个Video Arena榜单第一的模型,现在不仅直接放在手机App里随手可用,还提供了免费体验额度,千问这波确实给力。回顾HappyHorse 1.0的这些特点:动作不穿帮、镜头有语言感,解决了AI内容质量的可预期性,让我们不用再抱着“抽卡”的心态去体验AI视频生成。对白自然、真实的环境音、精准的风格化还原,更让我们和创作者减少了大量后期修补成本,无需在多个工具之间来回切换。如果将这种极低门槛、高容错率的生成能力放到具体商业语境中,价值显而易见。对于新媒体运营、短剧导演或电商营销团队而言,过去需要庞大后期团队和高昂拍摄预算才能完成的分镜预演、概念设计或视觉短片,现在只需在手机或电脑上输入指令就能快速落地。在千问里,一个人就是一支高效的视听制作团队。
现在,我们在千问里就能得到一段真实的虚拟主播视频。过去一段时间,视频生成赛道的竞争逻辑是“谁的模型更强”——更高的分辨率、更长的时长、更复杂的物理模拟,拼的是参数和算法的技术竞赛。但我们真正卡住的地方很少是因为“模型做不到”,大多数时候是“做到了但用不起或用不到”:等待时间太长、声画要分开处理、动作稳不稳全靠运气。每一个环节的摩擦都在把视频生成挡在专业用户和AI超级创作者之外。而这一次,千问不仅省去了我们在不同工具之间切换的折腾,把最顶级的视频生成能力直接放到了最熟悉的对话框里,更借助底层模型的实力,把这些创作摩擦一个个彻底抹平了。

千问现在是工作、学习、生活和创作中全能AI助手。HappyHorse无疑是一匹强劲的黑马,它是阿里新成立的ATH事业群在模型能力、平台分发、具体应用这条完整链条上的一块关键拼图;在千问首发灰测后,链条开始跑起来了。 从帮助用户解决日常问题、提升工作学习效率的文本对话,到如今整合了极高水准的AI生图与视频能力,千问的进化路径已非常清晰:它正在打破“生活提效”与“专业创作”的壁垒。通过一次次功能迭代,千问正将顶级算力平民化,真正从一个简单的问答工具,蜕变为一个覆盖用户全场景的“全能型AI助手”。作为普通人,我们或许不需要关心背后复杂的算法架构,因为最好的技术,已经通过千问以最顺滑的方式装进了你的手机里。

现在,轮到大家上场了。如果你也想体验HappyHorse 1.0强大的视频生成能力,千问还同步开启了“天马行空”挑战赛。共有四大AIGC视频赛道,20万现金奖池等你来拿。直接前往千问App或千问创作Web端,用灵感在这个没有门槛的新画布上,真正“天马行空”一次。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32391

