2026 年 4 月 18 日
🎬视频生成 / 编辑
2026 Q2 最热赛道之一
阿里 Wan 视频生成模型的 FP8 量化版。14B 参数,image-to-video 路线。整个榜单 6 个 Wan 系列相关 Space,说明 Wan 成为 2026 Q2 中国 image-to-video 技术方向的主要承载者。
image-to-video 是强竞争赛道,Runway / Kling / Sora 领先,独立开发者做不出差异化。但可以作为「用视频生成 API」的下游工具(比如 ai music video generator / product showcase video)。
一个 Space 覆盖三种能力:text to video、image to video、video extend。其中 video extend(视频延长)是关键信号。
Video extend 是 B2C 刚需——YouTube Shorts → YouTube Long、TikTok → 故事性长视频。这是明确的场景词机会。
ai video extenderextend video with aimake video longer ai从视频里删除物体(比 photo remove object 更难的技术)。74 likes 刚起步,但技术方向非常有潜力。
这条最值得单独关注。如果这个技术稳定下来,remove object from video online 会成为高价值场景词。目前刚起步,可以提前埋伏域名 / 准备内页。竞品:runway / kapwing 已做,但独立 AI 工具站还没饱和。
remove object from video onlinevideo object removal aidelete person from video基于 LTX 2.3 的人像动画和 lipsync(对口型)能力。
Lipsync 这个词商业价值极高(直接视频营销、语言学习、虚拟主播)。
ai lipsync freevideo dubbing with lipsyncai portrait animation🖼️图像编辑 / 生成
一个 Space 覆盖 4 个需求:image edit、text to image、image upscale、remove watermark。
ai image editor all in one / free online image editor ai 是稳定赛道。但要注意 remove watermark 法律风险,你方法论里已明确淘汰,保持原判。
ai image editor all in onefree online image editor ai从单张图片生成多个角度 / 3D 相机视角。
杀手级场景:电商卖家拍一张产品图,AI 生成 8 个角度。这是 ai product photo / 360 product view ai 的核心能力。
ai product 360 viewgenerate multiple angles from photoai rotate photo generator生成分层 PSD 文件(前景 / 背景 / 人物分开)。设计师工作流直接需求。
设计师工作流有明确场景词机会。
ai psd generatorlayered image aiseparate layers from imageClarity AI Upscaler 的开源复刻版本。
image enhancer / upscaler 你方法论里已淘汰(KD 76-84),但这个 Space 说明技术在不断涌现,下游 C 端工具站还有机会切蓝海长尾(如 enhance old photo of grandma)。
百度 ERNIE Image 刚发布的 demo,短时间两人 fork 上架。新模型信号。
技术迭代信号,国产模型新进展。暂无直接 SEO 机会。
🎤TTS / 语音克隆
多语言是今日亮点
High-quality voice cloning TTS for 600+ languages。600+ 语言是远超以往的规模(ElevenLabs 也就 30+)。
这条值得你重点关注。你已验证方向里的 read aloud text 可以直接扩展到多语言场景。新 SEO 方向:印地语 / 泰米尔语 TTS 市场基本空白,印度市场特别有价值。
read aloud in spanishmultilingual tts freeafrican language ttshindi tts online老牌开源 TTS 升级 v1.0。Kokoro 在独立开发者圈用得多,成本低、质量可接受。
如果你做 read aloud 工具站,Kokoro 是首选后端——成本几乎为 0。
浏览器里实时转录,entirely in your browser,不需要服务器。
浏览器里实时转录,对独立开发者成本几乎为 0,是做「在线转录工具」的理想底层。
real time transcription onlinebrowser speech to textoffline transcription从音频中移除静音片段。场景明确的小工具。
YouTube 创作者刚需——剪辑时自动去静音能省几小时。
remove silence from audio freecut silence from podcastauto silence remover阿里 Qwen 系列 TTS,稳定主流选择。
TTS 赛道技术越来越强,但主词 text to speech KD 89 已淘汰。只能切多语言 / 细分场景。
📄3D 生成 + OCR / 文档处理
微软出品,图生 3D。
3D 生成 B2C 转化差(普通人不需要 .obj 文件),但 B2B 电商商品展示、游戏 / 3D 打印爱好者社区有需求。
photo to 3d modelimage to 3d printableEasy converting PDF and Office docs into Markdown and JSON。开源。
你 seed_words 里 markdown to pdf 已验证为稳步上升。反过来 pdf to markdown 更符合 AI 时代(喂给 LLM 用)。MinerU 是开源的,意味着独立开发者可以自己部署免费给用户用,然后靠 SEO 变现。
convert pdf to markdown aioffice document to markdownpdf to json structured ai图像自动打标签 / 描述。
适合做 ai image captioning / photo to text description / alt text generator for seo 类工具。SEO 工具链本身的需求——帮博客图片自动生成 alt 标签。
ai image captioningalt text generator for seophoto to description ai👤Face Swap + 音乐生成
基于 FLUX.2 Klein 9B LoRA 的 Face Swap。技术质量比之前的 Flux1 代强。
你 keyword-evaluated.md 里 face swap 被 KD 83 + NSFW 污染淘汰,但注意榜单里至少 5 个 face swap Space,多个标 uncensored / NSFW,说明这个赛道 NSFW 一侧在飞速膨胀,正规侧反而成白海。ai face swap for halloween photo / family reunion face swap 等场景词可以避开 NSFW 污染重新考虑。
Describe any song — AI writes & produces it。基于 ACE-Step v1.5 音乐生成基础模型。
音乐生成这一赛道 Suno / Udio 领先,主词 ai music generator 已因 KD 80% 淘汰。但可以做延伸场景词——极窄场景词大站不做。
birthday song generator aicustom wedding song aiai song for my dog- 01
多语言 TTS 爆发:OmniVoice 600+ 语言 + Cohere Multilingual ASR 同日上架。你 read aloud text 方向可以快速扩展到多语言矩阵站——印地语 / 阿拉伯语 / 印尼语 / 越南语 TTS 是几乎空白的 SEO 赛道。
- 02
WebGPU 零后端 AI 工具:今天 6 个新 WebGPU Space,技术成熟度跨过门槛。独立开发者可以做「完全免费 + 零服务器成本 + 用户隐私保障」的 AI 工具站,大厂因为成本结构不会进入。
- 03
Video Object Deletion (VOID):新鲜技术(74 likes 🆕),可以提前埋伏 remove object from video 场景词。等这个能力稳定推向 C 端(估计 3-6 个月),有先发优势。
- →用 WebGPU TTS(浏览器内 Kokoro)搭 read aloud 多语言工具站,用户数据不上传、零服务器成本。
- →埋伏 remove object from video 关键词域名,VOID 技术成熟时你已占位。
- →关注 MinerU 的开源能力——做一个 pdf to markdown ai 工具站直接调用 MinerU 后端,零模型训练成本。