生成式 AI 推动工程师深入挖掘非结构化数据中的关键信息
生成式人工智能(GenAI)正在改变工程师的日常工作方式,使他们能够在短时间内识别车辆故障,甚至在设备发生问题之前预测潜在的失效风险。借助 GenAI,数据分析和算法开发的速度显著提升,为工程师提供了更多可执行的洞察,助力其更高效地应用专业知识。
工程团队每年都会积累数 TB 的数据,其中 Gartner 估计,多达 80% 的内容为非结构化数据。服务记录、技术文档和维修日志中蕴含着大量有价值的信息,但由于格式多样、结构复杂,难以统一处理。GenAI 技术正逐步突破这一瓶颈,为工程师提供更高效的整合与分析工具。这不仅加快了问题诊断的速度,也提升了设计效率和研发进程。
GenAI 在工程领域的应用盲点
尽管 GenAI 在工程任务中展现出强大的潜力,但其实际应用仍存在一定的局限。许多工程师将其主要用于编写基础代码或生成文档,而未能充分发挥其在更复杂工程流程中的作用。
MathWorks 在 2025 年 12 月通过社交媒体发起的一项非正式调查显示,83% 的工程师至少每月使用一次 GenAI,其中最常见的用途是“代码编写”和“文档与报告生成”。然而,关于 GenAI 与现有工作流整合的问题,仍是工程师关注的重点。数据显示,46% 的受访者担心其在工作流程中的集成性,而拥有多年经验的工程师中,这一比例更是高达 75%。
这些结果表明,虽然 GenAI 已广泛被采纳,但其在战略层面的深度应用仍有待提升。希望进一步提升 GenAI 使用效率的工程师,可以尝试将其用于处理非结构化数据,以拓展其在工程任务中的价值。
构建面向技术人员的智能聊天助手
在车辆故障诊断中,工程师通常需要处理多品牌、多车型之间的复杂问题。虽然大语言模型(LLM)具备广泛的知识库,但缺乏品牌专属的细节信息。为解决这一难题,塔塔汽车的工程师采用检索增强生成(RAG)技术,将通用 LLM 知识与内部文档结合,生成更精准的故障排查建议。
通过 MATLAB 构建的 RAG 工作流程,团队开发了一个具备上下文理解能力的聊天助手。该助手能够检索内部服务手册、工程文档及维修记录,并基于语义搜索机制,生成与问题相关的回答。由于系统不依赖于具体措辞,而是根据语义逻辑进行匹配,提高了检索的灵活性和准确性。
这一方法不仅具备可扩展性和成本效益,还有效利用了此前未被充分挖掘的非结构化文本。借助 RAG,工程师可以更快速地识别问题根源,缩短维修周期,并将 GenAI 更深入地融入故障排查流程。
食品科学领域中的文本数据结构化实践
科研工作往往依赖跨地域、跨年代的文献资料,而传统方法难以系统梳理其中的潜在关联。哥本哈根大学食品科学团队在处理庞大资料时,面临这一挑战。虽然 LLM 能够总结单篇论文,但难以揭示整体研究脉络。
为解决这一问题,研究人员将 GenAI 与传统数据处理技术结合,如文本清洗、信息提取等,构建出结构化的文本数据。GenAI 在整个过程中发挥关键作用,包括:
- 清理并标准化数千份格式不一致的 PDF 文件。
- 在元数据缺失时生成关键词。
- 将文本拆分为词元,并识别化学物质名称。
- 构建知识图谱,以段落和化合物为节点,揭示研究之间的关联。
团队随后使用 MATLAB 进行图论分析,识别概念之间的路径关系,并将结构化数据输入 LLM,生成主题关联摘要。这套流程显著提升了研究效率,使原本需要数周的手工分析缩短至几天。
尽管 GenAI 带来了效率提升,但其成功仍依赖大量人工预处理。团队在前期投入数百小时进行文本分割、格式转换等实验,最终确定按段落切分为最优方案。这表明,GenAI 的潜力需在高质量数据和严谨工程流程下才能完全释放。
预测性维护中非结构化数据的价值
预测性维护(PdM)通常依赖传感器数据,如温度、振动和压力,以识别设备异常。然而,文本形式的维护日志和技术人员记录也提供了关键背景信息,如故障表现、修复过程和可能的根因。
GenAI 使工程师能够标准化非结构化文本信息,并将其与传感器信号协同使用。例如,系统可对维护记录进行摘要生成,统一术语表达,并标注关键事件。这些信息与时间序列数据对齐,为 PdM 模型提供更精确的输入。
此外,GenAI 还可用于辅助数据清洗、特征工程、代码生成和建模方法选择等任务。然而,领域专家的判断始终不可或缺,工程师必须评估模型是否符合物理现实、是否反映真实故障,而非简单依赖数据噪声。
如同所有 PdM 方法,GenAI 支持的流程需要经过严格的验证。模型在小规模测试中表现良好,并不意味着其能在复杂多变的现实环境中稳定运行。工程师应使用代表性数据集进行多工况测试,并添加确定性检查,以提升模型的鲁棒性。
GenAI 在工程应用中的深层潜力尚未完全释放
GenAI 是一种强大工具,但其应用需遵循系统化方法。在处理大量文本数据或语言驱动型任务时,其价值尤为显著。工程师应从战略角度出发,将 GenAI 整合到设计与分析流程中,同时深化自身专业知识,以实现真正高效的应用。
作者
Seth DeLand, MathWorks 产品市场经理关于 MathWorks
MathWorks 是全球领先的工程系统设计软件开发商。MATLAB 作为科学家与工程师的重要工具,提供算法开发、数据分析和可视化功能。Simulink 则是模块化建模与仿真平台,广泛应用于多领域工程系统的设计与部署。
MATLAB 和 Simulink 已成为汽车、航空航天、通信、能源、医疗设备等多个行业的核心开发工具。MathWorks 自 1984 年成立以来,始终致力于为全球 34 个国家的 6,500 多名员工提供领先的工程软件与服务。如需更多信息,请访问 cn.mathworks.com。