陈鹏羽

数据科学硕士

莫纳什大学数据科学硕士在读(QS 2026 第36位,预计 2026 年 7 月毕业)。具有扎实的统计学与数据分析背景,熟练掌握 R 与 Python 等编程语言,擅长数据的清洗、探索、建模与可视化,有使用 OpenAI 接口、TTS、语音识别、音乐合成等模型构建交互式智能体的经验,专注于以数据智能驱动决策与创新。

邮箱: pengyu.chen@chen-py.com
微信: chen-py369

关于我

姓名: 陈鹏羽
性别:
学历: 硕士在读
专业: 数据科学
语言: 中文、英文

莫纳什大学
Monash University, QS 36

数据科学硕士 Master of Data Science

2024 - 至今

主修课程:

  • 数据清洗
    Data Wrangling
  • 机器学习
    Machine Learning
  • 数据库概论
    Introduction to Databases
  • 大数据处理
    Data Processing for Big Data
  • 计算机网络与架构
    Computer Architecture and Networks
  • Python编程
    Algorithms and Programming in Python
  • 项目管理
    Project Management
  • IT研究方法
    IT Research and Innovation Methods
  • 生物信息学
    Introduction to Bioinformatics

浙大城市学院
Hangzhou City University

大数据技术与数据科学学士 Bachelor of Data Science and Big Data Technology

2019 - 2023

主修课程:

  • 回归分析
    Regression Analysis
  • 时间序列分析
    Time Series Analysis
  • 应用随机过程
    Applied Stochastic Processes
  • 预测与决策概论
    The Introduction of Forecasting and Decision
  • 贝叶斯统计
    Bayesian Statistics
  • 机器学习
    Machine Learning
  • 数据库原理
    Database Principles
  • 数据结构基础
    Basics of Data Structure
  • 程序设计基础与实验
    Programming Foundation and Experiment

专业技能

熟练 能够独立完成复杂任务
掌握 具备实践经验与应用能力
了解 了解基本概念与用法

数据清洗与预处理

能够熟练的使用 Python 和 R 进行数据检查、清洗、转换与结构化处理,熟练掌握 NumPy、Pandas、PySpark、data.table 与 dplyr 等常用库。

pandas NumPy data.table dplyr PySpark

数据存储与架构设计

能够结合业务需求设计三类模型(数据模型、逻辑模型、物理模型),并使用 SQL 高效完成数据库构建与查询。

SQL DuckDB 数据模型 逻辑模型 物理模型

数据分析与建模

能够运用 R 和 Python 搭建机器学习管线,开展机器学习模型的建模、训练、调优与实际部署,掌握 Scikit-learn、PyTorch 等常用机器学习库,以及 Spark MLlib 等分布式库的使用。

scikit-learn PyTorch R 建模 Spark MLlib

数据可视化与交互展示

能够熟练运用 Matplotlib、Seaborn 等 Python 库以及 R 的 ggplot2 进行数据可视化分析,并基于 R Shiny 搭建交互式可视化面板。

matplotlib seaborn ggplot2 R Shiny

大模型应用开发

能够利用 OpenAI API 与 Hugging Face Transformers 包调用大模型,开发基于大模型的应用系统。

OpenAI API Transformers

辅助与工具支持能力

具有使用 Qt Designer 搭建应用界面、QThread 与 threading 库实现并行处理的实践经验,且对 C 和 Java 的编程思想有一定理解。

Qt Designer QThread threading C 语言 Java

项目与经历

2025年6月
鸟类观测数据可视化与交互探索(加拿大 2000–2023)

一个交互式可视化平台,使非专业用户能够直观探索 2000–2023 年加拿大鸟类观测在时空及气候因素下的分布规律

相关链接

我的职责

独立完成系统的设计、开发与部署

技术细节

  • 数据处理:设计预处理流程,采用 Parquet 存储 + DuckDB 查询,高效聚合海量观测与气温格点数据。
  • 交互可视化:基于 R Shiny + Leaflet 搭建动态地图与交互界面,结合 CSS 模板优化用户体验。
  • 部署:通过 shinyapps.io 云端部署,实现实时在线访问。
2025年7月 - 至今
基于大语言模型的屏幕交互式助手

一款基于大语言模型与 OCR 技术、以工作流驱动的悬浮式屏幕交互式助手,用于实时解析屏幕内容并进行智能问答。

相关链接

我的职责

独立完成系统的设计、开发与实现

技术细节

  • UI 框架:基于 Qt Designer 搭建悬浮式对话框,完成交互逻辑设计。
  • 屏幕捕捉:使用 MSS 捕获屏幕内容,并转换为 Base64 格式以供模型处理。
  • 多模态理解:调用 OpenAI API,实现自然语言与图像的联合解析和问答。
  • 性能优化:利用 QThread 实现异步设计,确保界面响应与交互流畅性。
2025年9月 - 至今
流式电力负荷预测框架

基于 Spark 与 Kafka 搭建的实时电力负荷预测系统,支持智能电网动态调度的研究项目。

相关链接

我的职责

参与系统设计、开发与优化的核心工作

技术细节

  • 实时数据架构:基于 Spark 与 Kafka 搭建实时数据处理与预测系统,支持智能电网动态调度。
  • 多源数据融合:整合智能电表功率数据、气象信息与建筑属性,构建综合数据集。
  • 机器学习建模:使用随机森林与梯度提升树模型提升预测精度与鲁棒性。
  • 分布式计算:实现分布式特征工程与并行训练,优化模型计算性能。
  • 流式预测管道:设计流式预测管道,实现实时数据处理与在线预测。
  • 性能评估:通过 RMSLE 指标验证模型性能,项目现正推进系统化部署阶段。
2025年10月 - 至今
实时语音AI交互助手

一款以工作流驱动、融合本地小模型与云端大语言模型的轻量级实时语音对话智能体。

相关链接

我的职责

独立完成系统的设计、开发与实现

技术细节

  • 语音识别框架:基于 Whisper 模型的语音识别框架,利用能量检测、VAD 检测与大模型问答实现断句检测。
  • 对话生成:基于 OpenAI API 调用大语言模型,实现智能对话生成。
  • 语音合成:基于 Piper 模型进行高质量语音生成。
  • 并行处理:基于 threading 包实现并行编程,确保语音识别、对话生成与语音合成的流畅协作。
  • 线程安全:基于 queue 实现线程安全的资源队列,保障多线程环境下的数据一致性。
2022.09-10 & 2023.01-02
研究助理
深圳市赛盈地脉技术有限公司

参与公司数据分析项目,负责数据收集、清洗和预处理工作。运用Python进行数据分析,协助建立统计模型,为业务决策提供数据支持。

技能应用:Python, 数据分析, 统计建模

其他亮点

语言能力

  • • 中文:母语
  • • 英文:雅思 7.0,曾获第三届浙江省外教社杯省三等奖,拥有两年澳大利亚留学经历,具备流利的英语交流与专业文献阅读写作能力

组织能力

  • • 大学期间任戏曲社团事务部负责人,负责活动立项与申报,推动多项活动落地
  • • 中学时期担任校乐高机器人社团副社长,负责人员管理与考核机制设计

艺术素养

  • • 持有上海音乐学院颁发的业余小提琴十级证书,并曾担任校乐队第一小提琴声部演奏员
  • • 有担任校园乐队吉他手的经历
  • • 利用生成式模型创作过多部音乐作品

体育特长

  • • 羽毛球运动

感谢您的关注