能不能开发截图翻译的功能?
allentown
使用场景是,先自己用截图软件保存,然后用扩展上传本地图片,还是想扩展直接直接截图后翻译?
yochi mada
allentown最好是扩展直接截图翻译,这样比上传本地的图片要效率高一些。有些大模型好像本身就带有文字识别功能的,理论上直接截图翻译应该是能够实现的。谢谢。
allentown
yochi mada: 目前有哪个类似的扩展有该功能,我可以参考下交互
yochi mada
allentown您好,有一个翻译软件叫做STranslate,有使用paddle OCR做截图的识别,然后翻译,如截图,供您参考。GitHub网址:https://github.com/ZGGSONG/STranslate/blob/main/README_ZH.md
另外,我尝试过,在AI的帮助下,直接用gemini的2.0-flash模型,直接识别win+shift+s的系统截图,通过Gemini的图像识别以及文本翻译能力,直接实现截图翻译,也可供您参考。