Al项目

AI工具集介绍和收录了当前流行的AI研究项目和框架，紧跟最新AI领域的进展，解读AI研究论文和方法框架，帮你快速了解这些项目的工作原理。

149℃Real-IAD 大规模工业异常检测数据集

本文介绍了腾讯优图发布的 Real-IAD 大规模工业异常检测数据集。阐述了该数据集规模庞大，具有丰富的多样性、全面的异常类型覆盖、高精度和真实性等特点，涵盖了 30 类真实产线物料、150K 数据等。还提到了腾讯优图在深

2024-12-30

97℃半导体行业专用 LLM 模型：Semikong

Semikong 是专为半导体行业打造的大型语言模型，它具备深度的行业知识，能精准预测技术趋势，高效解决相关问题。其应用涵盖芯片设计优化、生产流程改进、市场趋势分析等领域。工作原理基于自然语言处理和深度学习技术，通过

2024-12-30

97℃Fireworks AI 复合式AI模型F1：智能科技全解析

Fireworks AI 复合式 AI 模型 F1 引领智能潮流。它具创新复合架构，多模态数据处理能力强，可精准解析文本、图像、音频等。在多领域应用广泛，能辅助创作、服务、诊断、分析等。优势突出，高精度且自适应学习，推动各行业智能

2024-11-21

207℃《百度 "秒哒"—— 开启无代码编程新时代》

“秒哒” 是百度在 2024 年 11 月 12 日百度世界大会上推出的一款创新无代码工具135。它是由大模型和智能体组成的软件，旨在让非程序员群体也能够轻松开发应用程序，无需懂代码和写代码，仅通过一句话就能生成软件应用。

2024-11-13

157℃百度检索增强的文生图技术（iRAG）

百度检索增强的文生图技术（iRAG）是百度在 2024 年 11 月 12 日百度世界大会上推出的一项创新技术126。它将百度搜索的亿级图片资源与强大的基础模型能力相结合，旨在解决大模型在图片生成上的 “幻觉问题”，生成各种超真实

2024-11-13

191℃字节跳动图像编辑模型 SeedEdit：革新图像编辑的智能之选

SeedEdit 是字节跳动研发的一款通用图像编辑模型。它于 2024 年 11 月 11 日由字节跳动豆包大模型团队推出，旨在为用户提供一种全新的、智能化的图像编辑体验

2024-11-12

214℃LM Studio – 开源、傻瓜、一站式部署本地大模型 (LLM) 的应用平台

LM Studio是什么LM Studio 是一个本地大语言模型 (LLM) 应用平台，开源、傻瓜、一站式部署本地大模型。包括但不限于Llama、MPT、Gemma等，LM Studio 提供了一个图形用户界面（GUI），即使是非技术人员...

2024-09-03

83℃edge-tts – 开源的AI文字转语音项目

edge-tts是什么edge-tts是开源的AI文字转语音项目，支持超过40种语言和300多种声音。edge-tts利用微软Azure Cognitive Services的强大功能，能将文本信息转换成流畅自然的语音输出。edge-tt...

2024-09-03

80℃LLaVA-OneVision – 字节跳动推出的开源多模态AI模型

LLaVA-OneVision是什么LLaVA-OneVision是字节跳动推出开源的多模态AI模型，LLaVA-OneVision通过整合数据、模型和视觉表示的见解，能同时处理单图像、多图像和视频场景下的计算机视觉任务。LLaVA-On...

2024-09-03

73℃MUMU – 文本和图像驱动的多模态生成模型

MUMU是什么MUMU是一种多模态图像生成模型，通过结合文本提示和参考图像来生成目标图像，从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet，采用了视觉语言模型Idefics2的隐藏状态构建。模型在训练时使

2024-09-03

70℃Video-LLaVA2 – ChatLaw推出的开源多模态智能理解系统

Video-LLaVA2是什么Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统，通过创新的时空卷积（STC）连接器和音频分支，提升了视频和音频理解能力。模型在视频问答和字幕生成等多个基准测试中表现出色，...

2024-09-03

104℃HMoE – 腾讯混元团队提出的新型神经网络架构

HMoE是什么HMoE（混合异构专家模型）是腾讯混元团队提出的新型神经网络架构，旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数据，从而增强模型的专业化程度。HMoE采用新的训练目标和

2024-09-03

120℃LitServe – 基于FastAPI的高性能AI模型部署引擎

LitServe是什么LitServe是基于FastAPI的高性能AI模型部署引擎，专为企业级AI服务设计。支持批处理、流式处理和GPU自动扩展，简化了模型部署流程。LitServe易于安装和使用，通过pip即可安装，提供灵活的API定义...

2024-09-03

78℃CustomCrafter – 腾讯联合浙大推出的自定义视频生成框架

CustomCrafter是什么CustomCrafter 是腾讯和浙江大学联合提出的自定义视频生成框架，能基于文本提示和参考图像生成高质量的个性化视频，同时保留了运动生成和概念组合的能力。CustomCrafter通过设计一系列灵活的模...

2024-09-03

106℃LeRobot – HuggingFace推出的开源AI聊天机器人项目

LeRobot是什么LeRobot是由HuggingFace推出的开源AI聊天机器人项目，由前特斯拉研究员Remi Cadene领导开发。LeRobot致力于降低机器人技术的入门门槛，提供预训练模型、数据集和模拟环境，支持模仿学习和强化学...

2024-09-03

82℃LongVILA – 面向长视频理解的视觉语言AI模型

LongVILA是什么LongVILA是一个面向长视频理解的视觉语言AI模型，由英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校共同开发。通过算法和系统的共同设计，实现了在大量GPU上进行超长上下文长度训练的能力，无需梯度检查点

2024-09-03

106℃EasyOCR – 支持超80种语言的开源OCR项目

EasyOCR是什么EasyOCR 是一个功能强大的开源OCR（光学字符识别）项目，支持80多种语言和多种书写系统，包括中文、阿拉伯文和西里尔文。基于深度学习技术，提供高精度的文字识别能力。用户可以通过简单的API轻松地将图像中的文

2024-09-03

108℃OmniCorpus – 百亿级多模态数据集，支持中英双语

OmniCorpus是什么OmniCorpus是一个大规模多模态数据集，包含86亿张图像和16960亿个文本标记，支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和...

2024-09-03

86℃LTM-2-mini – Magic公司推出的支持1亿token上下文AI模型

LTM-2-mini是什么LTM-2-mini是Magic公司推出的支持1亿token上下文AI模型，能处理相当于1000万行代码或750本小说的内容。LTM-2-mini采用序列维度算法，计算效率比Llama 3.1 405B的注意力机...

2024-09-03

118℃STranslate – 多功能免费AI翻译工具，支持离线OCR识别

STranslate是什么STranslate是专为Windows用户设计的多功能翻译和OCR工具。支持多种语言翻译，具备划词、截图、监听剪贴板等多种翻译方式，并提供多家翻译服务接口。还拥有基于PaddleOCR的离线OCR功能，支持中文...

2024-09-03

106℃GPTEngineer – 文本驱动生成Web网页的开源工具，AI自动写代码

GPTEngineer是什么GPTEngineer 是一个基于 AI 技术通过简单的文本提示快速生成网页应用原型的开源工具。用户只需描述需求，AI 能自动编写并执行代码，支持与 GitHub 同步和一键部署。GPTEngineer底层使用...

2024-09-03

106℃VectorVein – 开源的无代码AI工作流工具，简单拖拽定制AI应用

VectorVein是什么VectorVein 是一款开源的无代码AI工作流工具，通过简化的拖拽操作，让用户无需编程知识即可构建智能工作流，实现日常任务的自动化。VectorVein支持数据处理、分析和知识管理等多种应用场景，具备无代码、...

2024-09-03

81℃OpenCity – AI交通预测模型，卓越的零样本预测和情境适应能力

OpenCity是什么OpenCity是由香港大学联合华南理工大学和百度共同研发的交通预测模型。OpenCity采用Transformer架构和图神经网络，通过大规模预训练学习交通数据的时空依赖关系，具备卓越的零样本预测能力和快速情境适应.

2024-09-03

83℃PGTFormer – 先进的AI视频人脸修复框架

PGTFormer是什么PGTFormer是先进的视频人脸修复框架，通过解析引导的时间一致性变换器来恢复视频中的高保真细节，同时增强时间连贯性。该方法无需预对齐，基于语义解析选择最佳人脸先验，并通过时空Transformer模块和时序保

2024-09-03

79℃Eagle – 英伟达推出的多模态大模型，擅长高分辨率图像处理

Eagle是什么Eagle是英伟达推出的多模态大模型，擅长处理高达1024×1024像素的图像，显著提升视觉问答和文档理解能力。Eagle模型采用多专家视觉编码器架构，通过简单高效的特征融合策略，实现对图像内容的深入理解。Eagle模型

2024-09-03

26 1 2 下一页尾页

奇想AI导航网收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，奇想AI导航网还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

奇想AI导航网广告投放关于我们免责声明 AI工具箱网

Copyright © 2026 奇想AI导航网湘ICP备2023001050号-1