neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

GOT-baidu09OCR2.0 – 开源的端到端OCR模型,多语言多模态识别,多样化输入输出

GOT-baidu09OCR2.0 – 开源的端到端OCR模型,多语言多模态识别,多样化输入输出

GOT-OCR 2.0是一种先进的光学字符识别(OCR)模型,推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成,能处理包括文本、数学公式、分子式、图表、乐谱和几何图形在内的多种光学字符。GOT-OCR 2.0支持多种语言,尤其是中文和英文,能输出多种格式化结果,如Markdown和LaTeX。
23 0 2025-08-29
DiffusionGPT – 开源的大模型驱动的文本到图像生成系统

DiffusionGPT – 开源的大模型驱动的文本到图像生成系统

DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系统,旨在解决文生图领域无法处理不同的输入或者仅限于单一模型结果的挑战。该系统利用思维树和优势数据库的技术能够处理多种类型的文本提示,并将这些提示与领域专家模型相结合,以生成高质量的图像。
25 0 2025-08-28