智能语言信息处理科研创新团队-科研处

科研团队

位置：首页 -> 科研团队 -> 正文

科研团队

智能语言信息处理科研创新团队

日期：2025/09/15 15:41:23

团队负责人：宋小华

负责人简介：

(1981－),男,新疆克拉玛依人,博士生,吉林外国语大学人工智能学院副教授，主要研究领域为定性空间推理。

团队简介：

本团队设计并实现一个高效的语料库管理分析系统，能够支持大规模的数据存储和分析。研发基于Transformer的自然语言处理关键算法，提高处理速度和准确性。构建并部署针对特定垂直领域的语言大模型，满足实际应用需求。

研究领域、研究方向：

1. 语料库系统的设计与实现：包括数据采集、清洗、标注、存储及检索机制。利用网络爬虫技术从公开网站、专业论坛、社交媒体等不同渠道收集文本数据和标注数据。采用自动化脚本和人工审核相结合的方式，去除无关信息、纠正错误、统一格式，确保数据质量。建立一套规则驱动的标注框架，训练标注团队使用专业工具进行高效的数据标注。采用高性能数据库管理系统和索引技术，优化数据的存储结构和检索效率，支持快速查询和更新。

2.基于Transformer的NLP算法优化：针对特定任务调整和优化模型结构。具体任务包括文本分类、机器翻译等。调整Transformer模型的层数、隐藏单元数量以及注意力头的数量，以达到最佳的性能和效率平衡。采用迁移学习、多任务学习等策略，利用预训练模型和大型数据集提高模型泛化能力和准确率。根据不同应用场景设计合适的损失函数和评估指标，确保模型训练的目标与实际应用需求相匹配。

3. 垂直领域语言模型的开发与部署：根据行业需求定制模型并确保其在实际环境中的有效运行。与行业专家合作深入了解特定领域的语言特点和需求，定制开发适合该领域的语言模型。使用行业相关的数据集对预训练模型进行微调，增强其在特定语境下的表现。在真实的业务环境中测试模型的表现，根据反馈进行迭代优化，确保模型的稳定性和可靠性。确保模型可以在当地服务器上高效运行，定期更新和维护以适应新的数据和需求变化。