数据工程师面试指南by Simplilearn(二）

以下文章来自英文网站simplilearn中国运营机构圣普伦提供。

问：你认为数据工程师的日常职责是什么？

答：这个问题评估您对数据工程师角色和职位描述的理解。您可以向数据工程师解释一些关键任务，例如：架构的开发、测试和维护。使设计与业务需求保持一致。数据采集和数据集流程的开发。部署机器学习和统计模型，为各种 ETL 操作和数据转换开发管道，简化数据清理并改进重复数据删除和数据构建。确定提高数据可靠性、灵活性、准确性和质量的方法。

问：作为一名数据工程师，你用什么方法开发新的分析产品？

答：招聘经理希望了解您作为数据工程师在开发新产品中的角色，并评估您对产品开发周期的理解。作为数据工程师，您可以控制最终产品的结果，因为您负责使用正确的数据构建算法或指标。您的第一步是了解整个产品的轮廓，以了解完整的要求和范围。第二步是查看每个指标的详细信息和原因。尽可能多地考虑可能发生的问题，它可以帮助您创建一个具有合适粒度级别的更健壮的系统。

问：你在最近的项目中使用的算法是什么？

答：面试官可能会要求你选择一个你在过去项目中使用过的算法，并会跟进一些相关问题，比如：你为什么选择这个算法，你能和其他类似的算法进行对比吗？使用更多数据时，该算法的可扩展性如何？你对结果满意吗？如果给你更多的时间，你能改进什么？这些问题反映了您的思维过程和技术知识。首先，确定您可能想要讨论的项目。如果您有自己专业领域内的实际示例以及与公司工作相关的算法，那么请用它来激起您的招聘经理的兴趣。其次，列出你使用过的所有模型和你的分析。从简单的模型开始，不要使事情过于复杂。招聘经理希望您解释结果及其影响

问：你在最近项目中使用的工具是什么？

答：面试官想评估你的决策技能和对不同工具的了解。因此，请使用此问题来解释您选择特定工具而非其他工具的理由。引导招聘经理完成您的思考过程，解释您考虑使用特定工具的原因、它的优点以及其他技术的缺点。如果您发现该公司使用您以前使用过的技术，那么将您的经验与相似之处编织在一起。

问：您在最近项目中遇到的挑战是什么？您是如何克服这些挑战的？

答：任何雇主都想评估您在遇到困难时的反应以及您如何应对和成功应对挑战。当您谈论您遇到的问题时，请使用 STAR 方法来构建您的答案：情景：向他们简要说明发生问题的情况。任务：必须详细说明您在克服问题中的作用。例如，如果你担任领导角色并提供了一个可行的解决方案，那么如果你正在面试领导职位，展示它可能是决定性的。行动：引导面试官全面了解你为解决问题所采取的步骤。结果：总是解释你的行为的后果。谈论您和其他利益相关者由此获得的经验和见解。

问：您是否做过将非结构化数据转换为结构化数据？

答：这是一个重要的问题，因为您的回答可以证明您对数据类型和实际工作经验的了解。您可以通过简要区分这两个类别来回答这个问题。非结构化数据必须转换为结构化数据才能进行正确的数据分析，您可以讨论转换的方法。您必须分享将非结构化数据更改为结构化数据的真实情况。如果您是应届毕业生并且没有专业经验，请讨论与您的学术项目相关的信息。

问：什么是数据建模？你了解不同的数据建模吗？

答：数据建模是数据分析和数据库设计阶段的第一步。面试官想了解你的知识。您可以解释这是显示实体之间关系的图解表示。首先创建概念模型，然后是逻辑模型，最后是物理模型。建模的复杂程度也按此顺序增加。

问：你能列出并解释数据建模中的设计模式吗？

答：设计模式是数据工程的基础，面试官问这个问题是为了测试你的数据工程知识。在你的回答中，尽量简洁准确。描述两种模式，即星型模式和雪花模式。说明 Star Schema 被划分为一个事实表，被多个维度表引用，这些维度表都链接到一个事实表。相比之下，在 Snowflake Schema 中，事实表保持不变，维度表被规范化为许多层，看起来像雪花。

问：您将如何验证从一个数据库到另一个数据库的数据迁移？

答：数据的有效性和确保没有数据丢失应该是数据工程师的首要任务。招聘经理问这个问题是为了了解您对如何进行数据验证的思考过程。您应该能够谈论不同场景下的适当验证类型。例如，您可以建议验证可以是一个简单的比较，也可以在完整的数据迁移之后进行。

问：你用过ETL吗？如果用过，请说明您最喜欢用哪个？为什么？

答：对于这个问题，招聘人员需要了解您对 ETL（提取转换负载）工具和流程的理解和经验。您应该列出您拥有专业知识的所有工具，并选择一个作为您的最爱。指出使该工具脱颖而出的重要属性，并通过展示您使用 ETL 的知识进一步验证您的偏好。

问：Hadoop 是什么？它与大数据的关系是怎样的？你能描述它的不同组件吗？

答：这个问题最常被招聘经理问到，以验证您在数据工程方面的知识和经验。

您应该告诉他们大数据和 Hadoop 是相互关联的，因为 Hadoop 是处理大数据的最常用工具，并且您应该熟悉该框架。随着大数据的升级，Hadoop也开始流行起来。它是一个开源软件框架，利用各种组件来处理大数据。 Hadoop 的开发者是 Apache foundation，它的实用程序提高了许多数据应用程序的效率。

Hadoop 主要由四个部分组成：

1. HDFS 代表 Hadoop 分布式文件系统，存储 Hadoop 的所有数据。作为分布式文件系统，它具有高带宽并保持数据质量。

2. MapReduce 处理大量数据。

3. Hadoop Common 是一组可以在 Hadoop 中使用的库和函数。

4. YARN（Yet Another Resource Negotiator）处理Hadoop中资源的分配和管理。

问：你是否用Hadoop框架搭建过数据系统？

答：如果您有使用 Hadoop 的经验，请详细说明您所做的工作，专注于您的技能和工具的专业知识。您可以解释 Hadoop 的所有基本功能。例如，您可以告诉他们您使用了 Hadoop 框架，因为它具有可扩展性以及在保持质量的同时提高数据处理速度的能力。 Hadoop 的一些特性包括：它是基于 Java 的。因此，团队成员可能不需要额外的培训。此外，它易于使用。由于数据存储在 Hadoop 中，因此在硬件故障的情况下，是可以通过其他途径访问的，这些功能使其成为处理大数据的最佳选择。在 Hadoop 中，数据存储在集群中，使其独立于所有其他操作。如果您没有使用此工具的经验，请了解有关该工具属性和属性的必要信息。

数据工程师面试指南by Simplilearn(二）

大数据系统相关栏目本月热门文章