← BACK
🤗
HUGGINGFACE

2026 年 4 月 18 日

原始100
深度分析20
高相关6
SECTION 01

🎬视频生成 / 编辑

2026 Q2 最热赛道之一

01中相关Image-to-VideoAlibaba
likes2169sdkgradiomcp

阿里 Wan 视频生成模型的 FP8 量化版。14B 参数,image-to-video 路线。整个榜单 6 个 Wan 系列相关 Space,说明 Wan 成为 2026 Q2 中国 image-to-video 技术方向的主要承载者。

对你的启示

image-to-video 是强竞争赛道,Runway / Kling / Sora 领先,独立开发者做不出差异化。但可以作为「用视频生成 API」的下游工具(比如 ai music video generator / product showcase video)。

02高相关Text-to-VideoVideo Extend
likes900sdkgradio

一个 Space 覆盖三种能力:text to video、image to video、video extend。其中 video extend(视频延长)是关键信号。

对你的启示

Video extend 是 B2C 刚需——YouTube Shorts → YouTube Long、TikTok → 故事性长视频。这是明确的场景词机会。

ai video extenderextend video with aimake video longer ai
03高相关🆕 新 SpaceVideo Edit
likes74sdkgradiois_new

从视频里删除物体(比 photo remove object 更难的技术)。74 likes 刚起步,但技术方向非常有潜力。

对你的启示

这条最值得单独关注。如果这个技术稳定下来,remove object from video online 会成为高价值场景词。目前刚起步,可以提前埋伏域名 / 准备内页。竞品:runway / kapwing 已做,但独立 AI 工具站还没饱和。

remove object from video onlinevideo object removal aidelete person from video
04中相关LipsyncPortrait Animation
likes127sdkgradio

基于 LTX 2.3 的人像动画和 lipsync(对口型)能力。

对你的启示

Lipsync 这个词商业价值极高(直接视频营销、语言学习、虚拟主播)。

ai lipsync freevideo dubbing with lipsyncai portrait animation
SECTION 02

🖼️图像编辑 / 生成

01中相关All-in-One
likes1456sdkgradio

一个 Space 覆盖 4 个需求:image edit、text to image、image upscale、remove watermark。

对你的启示

ai image editor all in one / free online image editor ai 是稳定赛道。但要注意 remove watermark 法律风险,你方法论里已明确淘汰,保持原判。

ai image editor all in onefree online image editor ai
02高相关3D ViewE-commerce
likes2311sdkgradio

从单张图片生成多个角度 / 3D 相机视角。

对你的启示

杀手级场景:电商卖家拍一张产品图,AI 生成 8 个角度。这是 ai product photo / 360 product view ai 的核心能力。

ai product 360 viewgenerate multiple angles from photoai rotate photo generator
03中相关LayeredDesign
likes500sdkgradio

生成分层 PSD 文件(前景 / 背景 / 人物分开)。设计师工作流直接需求。

对你的启示

设计师工作流有明确场景词机会。

ai psd generatorlayered image aiseparate layers from image
04低相关Upscaler
likes2096sdkgradio

Clarity AI Upscaler 的开源复刻版本。

对你的启示

image enhancer / upscaler 你方法论里已淘汰(KD 76-84),但这个 Space 说明技术在不断涌现,下游 C 端工具站还有机会切蓝海长尾(如 enhance old photo of grandma)。

05低相关🆕 新模型Baidu
likes39sdkgradiois_new

百度 ERNIE Image 刚发布的 demo,短时间两人 fork 上架。新模型信号。

对你的启示

技术迭代信号,国产模型新进展。暂无直接 SEO 机会。

SECTION 03

🎤TTS / 语音克隆

多语言是今日亮点

01高相关🆕 新 SpaceMultilingual TTS
likes568sdkgradiois_new

High-quality voice cloning TTS for 600+ languages。600+ 语言是远超以往的规模(ElevenLabs 也就 30+)。

对你的启示

这条值得你重点关注。你已验证方向里的 read aloud text 可以直接扩展到多语言场景。新 SEO 方向:印地语 / 泰米尔语 TTS 市场基本空白,印度市场特别有价值。

read aloud in spanishmultilingual tts freeafrican language ttshindi tts online
02中相关TTSOpen Source
likes3290sdkgradio

老牌开源 TTS 升级 v1.0。Kokoro 在独立开发者圈用得多,成本低、质量可接受。

对你的启示

如果你做 read aloud 工具站,Kokoro 是首选后端——成本几乎为 0。

03高相关WebGPUReal-time
likes114sdkstatic

浏览器里实时转录,entirely in your browser,不需要服务器。

对你的启示

浏览器里实时转录,对独立开发者成本几乎为 0,是做「在线转录工具」的理想底层。

real time transcription onlinebrowser speech to textoffline transcription
04中相关Audio
likes254sdkgradio

从音频中移除静音片段。场景明确的小工具。

对你的启示

YouTube 创作者刚需——剪辑时自动去静音能省几小时。

remove silence from audio freecut silence from podcastauto silence remover
05低相关TTSAlibaba
likes1879sdkgradio

阿里 Qwen 系列 TTS,稳定主流选择。

对你的启示

TTS 赛道技术越来越强,但主词 text to speech KD 89 已淘汰。只能切多语言 / 细分场景。

SECTION 04

📄3D 生成 + OCR / 文档处理

01低相关3DMicrosoft
likes1421sdkgradio

微软出品,图生 3D。

对你的启示

3D 生成 B2C 转化差(普通人不需要 .obj 文件),但 B2B 电商商品展示、游戏 / 3D 打印爱好者社区有需求。

photo to 3d modelimage to 3d printable
02高相关OCRDocument
likes582sdkgradio

Easy converting PDF and Office docs into Markdown and JSON。开源。

对你的启示

你 seed_words 里 markdown to pdf 已验证为稳步上升。反过来 pdf to markdown 更符合 AI 时代(喂给 LLM 用)。MinerU 是开源的,意味着独立开发者可以自己部署免费给用户用,然后靠 SEO 变现。

convert pdf to markdown aioffice document to markdownpdf to json structured ai
03中相关Image Captioning
likes1721sdkgradio

图像自动打标签 / 描述。

对你的启示

适合做 ai image captioning / photo to text description / alt text generator for seo 类工具。SEO 工具链本身的需求——帮博客图片自动生成 alt 标签。

ai image captioningalt text generator for seophoto to description ai
SECTION 05

👤Face Swap + 音乐生成

01中相关Face Swap
likes292sdkgradio

基于 FLUX.2 Klein 9B LoRA 的 Face Swap。技术质量比之前的 Flux1 代强。

对你的启示

你 keyword-evaluated.md 里 face swap 被 KD 83 + NSFW 污染淘汰,但注意榜单里至少 5 个 face swap Space,多个标 uncensored / NSFW,说明这个赛道 NSFW 一侧在飞速膨胀,正规侧反而成白海。ai face swap for halloween photo / family reunion face swap 等场景词可以避开 NSFW 污染重新考虑。

02中相关🆕 新 SpaceMusic Gen
likes43sdkgradiois_new

Describe any song — AI writes & produces it。基于 ACE-Step v1.5 音乐生成基础模型。

对你的启示

音乐生成这一赛道 Suno / Udio 领先,主词 ai music generator 已因 KD 80% 淘汰。但可以做延伸场景词——极窄场景词大站不做。

birthday song generator aicustom wedding song aiai song for my dog
OTHER · 其他未深度分析
WebGPU 本地推理集合
6
Bonsai 1-bit WebGPU · Gemma 4 WebGPU · LFM2.5-VL-450M WebGPU · Cohere Transcribe WebGPU
Leaderboard / 教程(研究参考)
8
Open LLM Leaderboard · Arena Leaderboard · MTEB Leaderboard · Smol Training Playbook
NSFW 相关(跳过)
7
NSFW Face Swap · Heartsync Uncensored · Serverless ImgGen Hub NSFW
Anime / LoRA gallery
5
DanbooruSearch · Girlslike Lora Gallery · Danbooru tags transformer
细分研究 demo
10
OBLITERATUS · lerobot/visualize_dataset · AI Deadlines · GGUF My Repo
KEY OBSERVATIONS · 今日关键观察
  1. 01

    多语言 TTS 爆发:OmniVoice 600+ 语言 + Cohere Multilingual ASR 同日上架。你 read aloud text 方向可以快速扩展到多语言矩阵站——印地语 / 阿拉伯语 / 印尼语 / 越南语 TTS 是几乎空白的 SEO 赛道。

  2. 02

    WebGPU 零后端 AI 工具:今天 6 个新 WebGPU Space,技术成熟度跨过门槛。独立开发者可以做「完全免费 + 零服务器成本 + 用户隐私保障」的 AI 工具站,大厂因为成本结构不会进入。

  3. 03

    Video Object Deletion (VOID):新鲜技术(74 likes 🆕),可以提前埋伏 remove object from video 场景词。等这个能力稳定推向 C 端(估计 3-6 个月),有先发优势。

ACTION ITEMS · 今日行动清单
  • 用 WebGPU TTS(浏览器内 Kokoro)搭 read aloud 多语言工具站,用户数据不上传、零服务器成本。
  • 埋伏 remove object from video 关键词域名,VOID 技术成熟时你已占位。
  • 关注 MinerU 的开源能力——做一个 pdf to markdown ai 工具站直接调用 MinerU 后端,零模型训练成本。