Karanpreet考尔,加拿大安大略省多伦多的开发者
Karanpreet is available for hire
Hire Karanpreet

Karanpreet考尔

验证专家  in Engineering

数据工程师和开发人员

Location
加拿大安大略省多伦多
至今成员总数
2022年10月5日

Karanpreet是一名经验丰富的数据工程师,在与零售和投资银行领域的多个领先国际企业客户合作方面拥有扎实的背景. 将她强大的技术和软技能与严谨的提取物知识相结合, transform, 和加载(ETL)设计和数据分析, Karanpreet对最新的技术趋势充满热情和好奇,总是乐于学习新事物.

Portfolio

英属哥伦比亚大学(Capstone项目)
Python, PostgreSQL,机器学习,OpenAI,文本分类...
Deloitte
Python, Apache Spark, Azure砖, Azure数据工厂, PySpark...
Deloitte
投资银行技术,Python,自然语言生成(NLG)...

Experience

Availability

Part-time

首选的环境

Windows 10, Slack, Visual Studio Code (VS Code)

最神奇的...

...我开发的项目是一个完整的手工编码ETL过程,用于一个电子商务初创公司的仪表板,使他们的日常产品标签分类过程自动化.

工作经验

数据科学家|数据工程师

2022 - 2022
英属哥伦比亚大学(Capstone项目)
  • 开发了一种无监督机器学习模型,帮助加拿大领先的初创公司对大约4人进行分类,000从不同的电子商务平台上的不同商店将产品分类.
  • 集成并结合对比语言图像预训练(CLIP)方法和多类文本分类,实现对每一类产品更高的准确率.
  • 实现两个手工编码的ETL管道(训练和预测),每天获取新产品的数据, 调用图像和文本模型脚本来预测产品类别, 用预测更新生产记录.
  • 帮助将产品类别标签的手工工作从180分钟减少到14分钟,每天000件产品.
技术:Python, PostgreSQL,机器学习,OpenAI,文本分类, 工程数据, 数据分析, 数据清理, 数据处理

快速消费品数据工程师顾问

2018 - 2021
Deloitte
  • 在Azure砖中开发ETL过程中的数据转换,在Azure data Factory中设计执行工作流.
  • 在Azure数据工厂中识别并删除执行工作流中的冗余活动, 每天执行时间减少1小时,每月流程减少45分钟,减少云资源消耗.
  • 通过分析Spark SQL与layer之间的重复记录,减少了SQL数据仓库中的存储和处理时间, 将行数减少86%.
  • 端到端实现并自动化ETL过程, 每月加快1-2天的交付时间,并使团队独立于Microsoft Power BI仪表板交付的任何外部和手动依赖.
  • 领导设计, development, 并验证外部数据源仪表板作为任何与流程相关的查询的团队的单一联系点.
  • 在Apache Spark (Azure砖)的SQL数据仓库中实现复制的复杂SQL查询, 它节省了5个小时的执行时间,并减少了数据仓库中650GB的存储空间.
  • 获得客户领导对微调成果的奖励, 优化, 降低ETL工艺的成本, 以及公司的2020年Live Dot奖,以表彰其出色的表现和对快速消费品参与度的贡献.
技术:Python, Apache Spark, Azure砖, Azure数据工厂, PySpark, Azure SQL数据库, Azure SQL数据仓库, 专用SQL池(以前称为SQL DW), Azure数据湖, Microsoft Power BI, ETL开发, 工程数据, Data Lakes, 数据分析, 数据清理, 数据处理

数据工程师顾问

2018 - 2021
Deloitte
  • 为一家澳大利亚投资银行创建了一个聊天机器人概念验证(POC),使用RASA堆栈和自定义组件,以自动完成从各种来源寻找见解的手动工作, 使成本降低5个全职当量(FTE).
  • 与岸上客户团队成员合作,了解用于回答特别查询的财务后端逻辑. 负责跟踪技术需求, 建筑设计文件, 数据收集, 数据准备.
  • 根据业务用户对费用报告的特殊查询,为RASA中的聊天机器人解决方案准备培训数据, 包括高级管理人员,如首席经验官(CXO)和首席技术官(CTO).
  • 在Python中设计和实现动作模块,以满足为聊天机器人响应定义的每个动作, 例如计算个人银行业务的年初至今(YTD)收入.
  • 在Python中开发了实体提取器模型,作为自然语言理解(NLU)文本分类模型的包装,以提取用户查询实体, 包括月份, year, 业务范围, and product, 来帮助理解它的意图.
  • 使用Arria NLG Studio发起并开发POC,将结构化数据转换为自然语言, 自动化手工工作,节省一名全职员工为每月税务和收入报告撰写评论的时间.
  • 获得公司2019年Move the Dot团队奖,表彰团队在聊天机器人客户参与方面的卓越表现和重大贡献.
Technologies: 投资银行技术,Python,自然语言生成(NLG), Rasa NLU, 技术要求, 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, 工程数据, 数据分析, 数据清理

Intern

2018 - 2018
意法半导体
  • 设计并实现了一个通用的Java补丁来过滤超过10个的错误文件,000行XML格式,并将HTML表转换为CSV, 包含特定错误信息标记的列, 减少人工阅读和识别它们的工作.
  • 维护版本的文档, test plans, 并使用HP应用程序生命周期管理(ALM)工具进行部署.
  • 识别和解决测试过程中的多个缺陷和边界用例, 是什么帮助团队在最后期限内修复并交付.
技术:SQL, HTML,手动软件测试,HP应用程序生命周期管理(ALM)

网上的士服务ETL管道

http://github.com/karanpreetkaur/online_taxi_service_ETL_Project
该项目是一个手工编码的ETL管道过程,为在线出租车服务数据库和weblogs生成数据. 它处理错误数据并使用日志记录跟踪ETL元数据, 包括工作开始时间, 作业完成时间, and status. 通过执行数据争用, 它将其转换为可读的数据格式以进行报告,并最终填充目标数据存储的初始负载.

项目简要描述可供授权用户访问:http://docs.google.com/presentation/d/1PHT9CrB602qDdVB9q_wBui5OEe7kGHgouY1YtLXDi84/edit #滑= id.gcb9a0b074_1_0.
2021 - 2022

数据科学硕士学位

不列颠哥伦比亚大学-温哥华,不列颠哥伦比亚,加拿大

2014 - 2018

计算机科学学士学位

塔帕尔工程技术学院-印度旁遮普帕蒂拉

2022年11月- 2023年11月

Azure数据工程师助理

Microsoft

2021年8月至今

微软Azure数据基础

Microsoft

2021年7月至今

微软Azure基础

Microsoft

库/ api

NumPy, Pandas, PySpark, Scikit-learn, Tidyverse, Rasa NLU

Tools

Git, Slack, Dplyr, Microsoft Power BI, HP Application Lifecycle Management (ALM)

Languages

Python, R, C, c++, SQL, HTML

Platforms

Azure SQL数据仓库, Azure, Databricks, Azure Synapse, 专用SQL池(以前称为SQL DW), Visual Studio Code (VS Code), Azure PaaS, Azure Synapse Analytics

Paradigms

数据科学,ETL

Storage

PostgreSQL, Azure SQL数据库, Azure SQL, Data Lakes, MongoDB, 数据管道, Databases, 关系数据库

Frameworks

Apache Spark

Other

Windows 10, 数据争吵, 数据结构, Algorithms, 微软Azure, Azure砖, Azure数据湖, Azure数据工厂, Data, ETL开发, 工程数据, 数据分析, 数据清理, 数据处理, 机器学习, 监督式机器学习, 无监督学习, 统计方法, 预测分析, 假设检验, 软件开发, 构建管道, 数据仓库设计, 手动软件测试, 投资银行技术, 自然语言生成(NLG), 技术要求, 自然语言处理(NLP), OpenAI, 文本分类, Azure流分析, Big Data, Cloud, 数据安全, 项目管理 & 工作跟踪工具,安全性,存储,GPT,生成预训练变压器(GPT)

有效的合作

如何使用Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

分享你的需求

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

选择你的才能

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring