Building "My Alogs"
只是这个过程还有很多其他需要做的事情,目前只能将进展定格了,讲讲技术选型和一些想法
进程
- 手机购买了 premium,还有很多数据需要导入并整理的
- 购买了 2333.ai 的服务,使用 whisper 模型做 transcriptions
- 还需要加 inngest 来做后续的事件,nocodb 做 crud 相关的
- 最好功能能减就减吧,快点到一个上线的版本。
2025.01.12
目前已经有了一些比较基础的功能,可以做简单的展示和云同步。
跟着最早使用 alog 的线索找到了 ada,然后翻出了 VoiceNotes 和 IdeaShell,还有一位国内的独立开发者自己做的闪念,有点被震撼到。
2025.01.13-14
看了 VoiceNotes 最早的一些故事还有 IdeaShell 的一些访谈,VoiceNotes 已经有了一些不错的 revenue ≥ 100,000 usd 的样子,而 IdeaShell 并没有公开。
找到了些不同的 STT(Speech to Text)服务,fal.ai 和 火山引擎,之前尝试了讯飞,只是他们在线 demo 的质量太堪忧就放弃了。
意外之喜看了 @yadong_xie lepton.ai yadong_xie
我准备加上 video 的能力,看了 plyr,但没想到还有 vidstack 这样的好东西。
2025.01.22
因为总是会看到新的 stt 开发者服务,记不住价格,在这放一个量表,随时更新
Name | Price | Model | Note |
---|---|---|---|
2233.ai | $0.006 / min | Whisper | Proxy Provider |
OpenAi | $0.006 / min (rounded to the nearest second) | Whisper | |
lepton.ai | $0.0042 / min | Optimized Whisper | 做了杂音过滤 |
Azure | 5 hours free tier + [($0.006 fast-rqs / $0.003 batch-rqs / m) or ($0.00375 / m custom)] | Unknown | 价格分 tier,不造咋结算 |
fish.audio | $0.006 / min | Unknown | |
OpenAI | $0.003 / min | gpt-4o-mini-transcribe |
比来比去没想到 Azure 这个云设施的霸主拥有最新手友好的 token 价格,要是不看 zmh 代码的话都快忘了 Azure 了。
不过我也太容易分心了,本来几天前看他的 coai 就是为了了解他对 audio 的处理,却被其他事物分了心,今天瞎逛才想起来…
是的,被 one-api 这样的服务分心了,心想解决了一些问题后,自己也能做一个 2233.ai 这样的 provider,没必要…
说起 zmh,想起我初入茅庐学编程的时候,加了很多编程 qq 群有看见过很多这样卡通头像写很多代码的人。(那一天被卡通头像支配的恐惧!)
References
https://nocodb.amagi.love/dashboard/#/nc/pxn1x2jglpc51z1/m23dsj37qguyo4z
https://nocodb-production-8aa7.up.railway.app/api/v2/meta/bases/pxn1x2jglpc51z1/swagger
https://github.com/duxins/alog/blob/ac2be84f32169c308b7cc2c43e09d61db8a1be76/Sources/DataModel/MemoEntity%2BExtension.swift
https://www.starterstory.com/voice-notes-breakdown
https://github.com/zmh-program/blob-service/blob/main/handlers/speech.py#L36
https://github.com/Makememo/MemoAI
https://memo.ac/blog/whisper-hallucinations