Building "My Alogs"

Amagi,4 min read

只是这个过程还有很多其他需要做的事情,目前只能将进展定格了,讲讲技术选型和一些想法

进程


2025.01.12

目前已经有了一些比较基础的功能,可以做简单的展示和云同步。

跟着最早使用 alog 的线索找到了 ada,然后翻出了 VoiceNotes 和 IdeaShell,还有一位国内的独立开发者自己做的闪念,有点被震撼到。

First initial version of VoiceNotes

2025.01.13-14

看了 VoiceNotes 最早的一些故事还有 IdeaShell 的一些访谈,VoiceNotes 已经有了一些不错的 revenue ≥ 100,000 usd 的样子,而 IdeaShell 并没有公开。

找到了些不同的 STT(Speech to Text)服务,fal.ai 和 火山引擎,之前尝试了讯飞,只是他们在线 demo 的质量太堪忧就放弃了。

意外之喜看了

@yadong_xie

,发现除了 2233.ai 这样的代理外,

lepton.ai

提供了更优质和便宜的服务。 他们的基础服务能力做得非常好,另外

yadong_xie

有一篇关于开发 audio ai app 的文章,讲得很棒。

我准备加上 video 的能力,看了 plyr,但没想到还有 vidstack 这样的好东西。

2025.01.22

因为总是会看到新的 stt 开发者服务,记不住价格,在这放一个量表,随时更新

NamePriceModelNote
2233.ai$0.006 / minWhisperProxy Provider
OpenAi$0.006 / min (rounded to the nearest second)Whisper
lepton.ai$0.0042 / minOptimized Whisper做了杂音过滤
Azure5 hours free tier + [($0.006 fast-rqs / $0.003 batch-rqs / m) or ($0.00375 / m custom)]Unknown价格分 tier,不造咋结算
fish.audio$0.006 / minUnknown
OpenAI$0.003 / mingpt-4o-mini-transcribe

比来比去没想到 Azure 这个云设施的霸主拥有最新手友好的 token 价格,要是不看 zmh 代码的话都快忘了 Azure 了。

不过我也太容易分心了,本来几天前看他的 coai 就是为了了解他对 audio 的处理,却被其他事物分了心,今天瞎逛才想起来…

是的,被 one-api 这样的服务分心了,心想解决了一些问题后,自己也能做一个 2233.ai 这样的 provider,没必要…

说起 zmh,想起我初入茅庐学编程的时候,加了很多编程 qq 群有看见过很多这样卡通头像写很多代码的人。(那一天被卡通头像支配的恐惧!)

Siddhartha

References

CC BY-NC 4.0©Amagi. ᕕ( ᐛ )ᕗRSS