太棒了!这是一个非常经典且具有挑战性的问题。直接将巨大的MySQL数据库导出为文件是不现实的,而你的目标使建一个能被AI模型(如豆包、ChatGPT等)理解和检索的“知识库”,这需要一个完全不同的技术思路。
核心思路是:不使用“导出-分割-嵌入”的传统流程,而是编写程序(通常是Python脚本)直接从MySQL中分批次读取数据,进行清洗、分割,然后实时生成“向量嵌入”(Embedding),最后存入专门的“向量数据库”(Vector Database)。 应用程序(如你的AI助手)通过查询向量数据库来找到最相关的信息。
|