Building "My Alogs"
只是这个过程还有很多其他需要做的事情,目前只能将进展定格了,讲讲技术选型和一些想法
进程
- 手机购买了 premium,还有很多数据需要导入并整理的
- 购买了 2333.ai 的服务,使用 whisper 模型做 transcriptions
- 还需要加 inngest 来做后续的事件,nocodb 做 crud 相关的
- 最好功能能减就减吧,快点到一个上线的版本。
2025.01.12
目前已经有了一些比较基础的功能,可以做简单的展示和云同步。
跟着最早使用 alog 的线索找到了 ada,然后翻出了 VoiceNotes 和 IdeaShell,还有一位国内的独立开发者自己做的闪念,有点被震撼到。
2025.01.13-14
看了 VoiceNotes 最早的一些故事还有 IdeaShell 的一些访谈,VoiceNotes 已经有了一些不错的 revenue ≥ 100,000 usd 的样子,而 IdeaShell 并没有公开。
找到了些不同的 STT(Speech to Text)服务,fal.ai 和 火山引擎,之前尝试了讯飞,只是他们在线 demo 的质量太堪忧就放弃了。
意外之喜看了 @yadong_xie lepton.ai yadong_xie
我准备加上 video 的能力,看了 plyr,但没想到还有 vidstack 这样的好东西。
2025.01.22
因为总是会看到新的 stt 开发者服务,记不住价格,在这放一个量表,随时更新
Name | Price | Model | Note |
---|---|---|---|
2233.ai | $0.006 / min | Whisper | Proxy Provider |
OpenAi | $0.006 / min (rounded to the nearest second) | Whisper | |
lepton.ai | $0.0042 / min | Optimized Whisper | 做了杂音过滤 |
Azure | 5 hours free tier + [($0.006 fast-rq or $0.003 batch-rq / min) or ($0.00375 / min custom model endpoint)] | Unknown | 不造是什么 model,而且价格分 tier,不造咋结算 |
比来比去没想到 Azure 这个云设施的霸主拥有最新手友好的 token 价格,要是不看 zmh 代码的话都快忘了 Azure 了。
不过我也太容易分心了,本来几天前看他的 coai 就是为了了解他对 audio 的处理,却被其他事物分了心,今天瞎逛才想起来…
是的,被 one-api 这样的服务分心了,心想解决了一些问题后,自己也能做一个 2233.ai 这样的 provider,没必要…
说起 zmh,想起我初入茅庐学编程的时候,加了很多编程 qq 群有看见过很多这样卡通头像写很多代码的人。(那一天被卡通头像支配的恐惧!)
2025.01.23
最近一直在用 alog 记录很多日常和心理状态。而在刚刚思来想去,发觉现在的状态很不错,于是想做个 snapshot
简单讲讲我认为比较好的心理状态是什么。
「不会被噪音困扰」
噪音可以是很多种,比如烦人的猫咪呀,它一直嚷嚷着要出房门,开了门之后又想进来,绕来绕去,但我不会因此生气,会听它的要求好好开关门,好好投喂伺候。
(要知道猫猫本来就听不懂人类语言啊。
脑海里会冒出来的一些强迫的「声音」,比如会要求自己一定要把某段代码或者书籍片段看完才能去吃饭。这是个很不好的现象,肚子饿了还是得先管好肚子。
「可以聊任何 topic」
我指你应该有权说任何事,发表任何内容。不管是文学、哲学、还是违禁话题,讲道理给这世间可以被讨论的话题这样粗糙地套了个 Spectrum 也太不尊重这个世界了。
世界创造了各种各样的文化,知识,难不成就要被那些难堪的规则框住吗?不,不是这样的。特朗普家族都 tm 全员发币了,这个世界还能有啥惊奇的。(不知道多少人看了我这段,好像 web3 的内容网上越来越多了,不是我的锅「狗头护体」)
只是每个人经历各不相同,可能单纯无恶意的话题引子或回答,也总会有人因为想起各种莫名其妙的事情而想将你拉进键盘里好好「揍」一段,额~。
想起我之前失语的那段时间里,就总有被卡脖子的感觉,总是害怕自己说错话啥的,怕个 der ~。
当然,解决方法就是尝试用 CBT,拉起那段回忆,客观分析,告诉自己哪儿对哪儿错怎么做怎么看待才是好的。
额…不得不说还真是奇怪,小时候自己用类似 CBT 的方式尝试了无数次了,为什么还会遭殃咧。大概这就是人脑和人性吧,不能像机器那么简单。
另外就是意外和不确定性总是会出现的,比如预期的反馈没有得到,事情发展得莫名其妙。具体点讲比如工作合作被背刺,想问对方找个时间和和气气的好好沟通一番得不到回复被冷暴力。
emmm,这种时候只能自己消化了,只是花费的时间会长些。
References
https://nocodb.amagi.love/dashboard/#/nc/pxn1x2jglpc51z1/m23dsj37qguyo4z
https://nocodb-production-8aa7.up.railway.app/api/v2/meta/bases/pxn1x2jglpc51z1/swagger
https://github.com/duxins/alog/blob/ac2be84f32169c308b7cc2c43e09d61db8a1be76/Sources/DataModel/MemoEntity%2BExtension.swift
https://www.starterstory.com/voice-notes-breakdown
https://github.com/zmh-program/blob-service/blob/main/handlers/speech.py#L36
https://github.com/Makememo/MemoAI
https://memo.ac/blog/whisper-hallucinations