开发者针对 Kindle Cloud Reader 使用自定义加密字体导致传统 TTS 扩展失效的问题,提出了一种基于视觉的解决方案。该项目不依赖被混淆的 DOM 文本,而是直接捕获页面渲染像素,利用 tesseract-wasm 在浏览器本地进行 OCR 识别,提取文字及坐标信息,结合 Kokoro TTS 模型生成语音,并实现段落级高亮跟随。虽然首页识别需 2-3 秒,但通过自动翻页和预处理技术,保证了收听体验的流畅性。此外,该扩展还支持通过 Telegram 将音频推送到手机,实质上利用技术手段将 Kindle 电子书库转化为了免费的有声书资源。
原文链接:V2EX 分享发现

IT资源栈
评论前必须登录!
立即登录 注册