Building "My Alogs"

Amagi,Last updated at January 10, 2025•4 min read

只是这个过程还有很多其他需要做的事情，目前只能将进展定格了，讲讲技术选型和一些想法

进程

2025.01.12

目前已经有了一些比较基础的功能，可以做简单的展示和云同步。

跟着最早使用 alog 的线索找到了 ada，然后翻出了 VoiceNotes 和 IdeaShell，还有一位国内的独立开发者自己做的闪念，有点被震撼到。

First initial version of VoiceNotes

看了 VoiceNotes 最早的一些故事还有 IdeaShell 的一些访谈，VoiceNotes 已经有了一些不错的 revenue ≥ 100,000 usd 的样子，而 IdeaShell 并没有公开。

找到了些不同的 STT（Speech to Text）服务，fal.ai 和火山引擎，之前尝试了讯飞，只是他们在线 demo 的质量太堪忧就放弃了。

意外之喜看了

，发现除了 2233.ai 这样的代理外，

lepton.ai

提供了更优质和便宜的服务。他们的基础服务能力做得非常好，另外

yadong_xie

有一篇关于开发 audio ai app 的文章，讲得很棒。

我准备加上 video 的能力，看了 plyr，但没想到还有 vidstack 这样的好东西。

因为总是会看到新的 stt 开发者服务，记不住价格，在这放一个量表，随时更新

Name	Price	Model	Note
2233.ai	$0.006 / min	Whisper	Proxy Provider
OpenAi	$0.006 / min (rounded to the nearest second)	Whisper
lepton.ai	$0.0042 / min	Optimized Whisper	做了杂音过滤
Azure	5 hours free tier + [($0.006 fast-rqs / $0.003 batch-rqs / m) or ($0.00375 / m custom)]	Unknown	价格分 tier，不造咋结算
fish.audio	$0.006 / min	Unknown
OpenAI	$0.003 / min	gpt-4o-mini-transcribe

比来比去没想到 Azure 这个云设施的霸主拥有最新手友好的 token 价格，要是不看 zmh 代码的话都快忘了 Azure 了。

不过我也太容易分心了，本来几天前看他的 coai 就是为了了解他对 audio 的处理，却被其他事物分了心，今天瞎逛才想起来…

是的，被 one-api 这样的服务分心了，心想解决了一些问题后，自己也能做一个 2233.ai 这样的 provider，没必要…

说起 zmh，想起我初入茅庐学编程的时候，加了很多编程 qq 群有看见过很多这样卡通头像写很多代码的人。（那一天被卡通头像支配的恐惧！）

Siddhartha