字节一面大数据开发工程师面试自我介绍技巧与经验分享,大连加强网站建设
栏目:网络营销 发布时间:2025-02-26
字节一面 1 面试官:简单的做个自我介绍吧 面试官,您好!我叫 xxx 。我于 xxxx 年 x 月从 xxx 学校毕业,学历为 xx 。目前我在 xxx 公司的 xxx 部门就职, ... 字节一面大数据开发工程师面试自我介绍技巧与经验分享
    字节一面

    1 面试官:简单的做个自我介绍吧

    面试官,您好!我叫 xxx 。我于 xxxx 年 x 月从 xxx 学校毕业,学历为 xx 。目前我在 xxx 公司的 xxx 部门就职,职位是大数据开发工程师。我主要从事 xxx 组件以及平台的开发工作。

    工作后,我参与了 xxx 项目。我还参与了 xxx 项目。并且我参与了 xxx 项目。通过这些项目,我积累了丰富的项目经验。而且,这 x 个项目都获得了领导的一致好评。

    我对 Flink 组件怀有浓厚的兴趣。在工作之余,我常常钻研技术,比如 Flink 的四大基石,还有 Flink 内核应用的提交流程以及 Flink 的调度策略等。

    我入职已经 x 年了,并且曾经荣获过优秀员工。这就是我的自我介绍,接下来请面试官提问。

    2 面试官:介绍一下你最拿手的项目

    我重点来介绍流计算平台。这个平台是对标阿里云的实时计算 Flink 的。它是一个一站式且高性能的大数据计算、分析平台。其底层是基于 Flink 来实现的。平台能提供多种核心功能,还支持多种 、sink 插件。并且内置了统一的元数据管理。同时,它支持一键提交、应用管理、断点调试、监控告警、鉴权等多个核心模块。

    我主要负责该平台的 Flink 版本升级工作,将原先的 Flink 1.11.0 升级到 1.14.0。同时,我还对平台进行了架构重构以及代码优化。此外,我参与了核心模块应用管理的工作,也参与了鉴权模块的开发工作。

    解决了多部门提交 Flink 任务时需要大量开关配置的问题,解决了版本升级后 SQL 语法校验的问题,解决了应用提交报错的问题,还解决了鉴权问题。

    3 面试官: 鉴权能介绍一下吗?是对哪方面进行鉴权?

     鉴权是对表级别的读写进行鉴权。

    通过 Flink sql 进行调用并解析后获取相关内容,接着判断该表的类型属于 DDL、DML 还是 DQL 中的哪一种,利用自研的 flink-插件去获取信息,从特定的地方提取关键信息,按照约定组成特定格式来进行鉴权,若鉴权成功,就依照 Flink 原生的执行逻辑继续执行下去,若鉴权失败则报出鉴权异常。

    为什么要使用 Flink sql 进行鉴权呢?为什么不使用 Hive sql 鉴权呢?又为什么不使用 HDFS 本身的鉴权呢?

    该流计算平台底层是以 Flink 来实现的。在鉴权方面,因为编写的 SQL 在提交时要经过 Flink SQL 提交流程,所以在进行鉴权时直接通过 SQL 解析,对拿到的对应的类型进行校验。同时,为了让流计算平台更适配,满足更多业务场景的需求,最终选用了 Flink SQL 鉴权。其实用 Hive SQL 也是能够进行鉴权的。

    面试官询问:对于 Flink sql 之前的解析流程是否清楚呢?能否详细地介绍一下。

    如下图所示:

    Flink sql 调用某一方法,把某种东西转为 Flink 内部的某种形式。在这个过程中主要包含 4 大步骤。

    调用 parse() 方法,把 sql 转化为未经校验的 AST 抽象语法树。在解析过程中,主要运用了词法解析以及语法解析。

    词法解析会把 sql 语句转变为一组 token,语法解析会对 token 进行递归下降的语法分析。

    调用某个方法,把 AST 抽象语法树转化为经过校验的抽象语法树。在校验阶段主要校验两方面的内容:

    校验表名、字段名、函数名是否正确,

    校验特殊类型是否正确,包括判断是否有 join 操作,以及是否存在嵌套等情况。

    调用 rel() 方法,把抽象语法树转变为关系代数树(关系表达式)以及行表达式。在这个过程中,DDL 不会执行 rel 方法,原因是 DDL 实际上是对元数据进行修改,而非涉及复杂查询。

    调用()方法,把  进行转化,转化后的内容包含多种类型,不过最终都会生成根节点 。

    6 面试官:那在  之后又做了哪些操作?

    如下图所示:

    在 Flink 内部进行到某个阶段之后,会调用特定的方法把某事物转为另一事物。在这个过程中,经历了以下四大步骤:

    调用()方法,首先把  转换成  逻辑计划树,接着再将其对应转换成(  逻辑计划树);

    调用()方法把某个东西优化成。在这期间的优化规则包含基于规则的优化 RBO 以及基于代价的优化 CBO。

    (3) 调用raph() 方法将物理计划转为 。

    (4) 调用() 方法将  转为 。

    7 面试官:ROB 里面都了解哪些规则优化?

    RBO 规则优化包含了谓词下推,包含了 Join 优化,包含了列裁剪,还包含了分区裁剪等等。

    8 面试官:分区裁剪主要解决什么问题?

    分区剪裁针对分区表或分区索引而言,优化器能够依据分区键,从 from 和 where 中自动提取出需要访问的分区,这样就避免了对所有分区的扫描,进而降低了 IO 请求。

    分区剪裁分为静态分区剪裁和动态分区剪裁。静态分区剪裁在 sql 语句编译阶段发生,动态分区剪裁在 sql 语句执行阶段发生。若分区键是常量值,优化器会走静态分区剪裁;若分区键是变量形式,优化器只会走动态分区剪裁。

    面试官询问在 flink sql 中,join 包含哪些类型(主要是引擎层的实现方面)。

    在“join”中包含了“join”、“join”、“join”、“join”。

    join 包含有 left join 这种连接方式,也包含 right join 这种连接方式,还包含 inner join 这种连接方式,同时包含 full join 这种连接方式。

    join 所指的是在时间区间内,两条流之间存在一段时间的 join 情况。

    10 面试官:Spark 3.0 优化特性了解不?

    了解 Spark 3.0 AQE 自适应查询优化。

    AQE 自适应查询包含 3 种优化。其中有动态合并分区。还有动态调整 join 策略。另外有动态优化数据倾斜 join 等。

    (1) 动态合并  分区

    在 spark 里,前后的分区存在差异。若分区数过少,那么每个分区处理的数据量可能会很大,进而致使大分区处理时需要将数据落盘,使得查询效率变得很低;倘若分区过多,就会导致每个分区处理的数据较少,这样也会使 IO 请求增多,从而降低查询效率。

    动态合并的含义是,在 map 端的两个分区经过特定操作后,原本会产生五个分区。然而,由于有两个分区的数据过小,所以直接对这两个分区进行合并操作,最终输出 3 个分区。

    (2) 动态调整 join 策略。

    包含 3 种 join 策略,分别是 hash join、hash join。

    (3) 动态优化数据倾斜 join

    面试官询问:假如两张表需要进行 join 操作,但是目前无法满足 hash Join 的要求,那么应该如何处理这种情况,才能够使其达到要求呢?

    在.0 AQE 里会动态调整 join 策略。其中有一种情况是 hash join 的性能最佳,而这种情况的前提是参与 join 的一张表的数据能够被装入内存。正因为如此,当 Spark 估计参与 join 的表的数据量小于广播大小的阈值时,它就会把 Join 策略调整为 hash join。

    所以当两张表进行 join 操作时,如果 A 表的数据量比广播大小的阈值大,那么就不能选择 hash join 。然而,如果恰好能够通过条件把 A 表的无用数据过滤掉,并且 B 表不包含无用数据,这样过滤掉后的 A 表数据量就会小于广播大小的阈值,在这种情况下就可以选择 hash join 。

    12 面试官: 失败有遇到过吗,什么原因导致的?

    遇到过这种情况,失败通常与反压相互关联。导致失败的原因主要有以下两个:

    1. 数据流动缓慢, 执行时间过长。

    我们知道,Flink 机制是以某种方式基于……的。在数据处理期间,它也如同普通数据那般,需在……中排队,等候被处理。倘若……较大或者数据处理较为缓慢,那么它到达算子就需要很长时间,进而触发……。特别是当存在反压情况时,它得在……中流动好几个小时,这就致使……执行时间过长,即便超过了……,依然还未完成,最终导致失败。

    当需要对齐算子时,如果一个输入已经到达,那么该输入后面的数据会被阻塞,不能被处理,必须等到其他输入到达之后才能继续处理。在对齐过程中,其他输入数据的处理都要暂停,这会严重影响应用的实时性,使得执行时间过长,超过了规定时间还没有完成,从而导致执行失败。

    2. 状态数据过大。

    当状态数据过大时,会对每次的时间产生影响。并且在进行某种操作时,IO 压力会很大,导致执行时间过长。如果执行时间过长,就可能出现超时但仍未执行成功的情况,进而导致执行失败。

    13 面试官:怎么解决的上述问题?

    对于数据流动缓慢 解决思路是:

    让  中的数据变少

    让  能跳过  中存储的数据。

    这对应社区提出的 FLIP-183 的 size 。其解决思路为只缓存配置时间内能够处理的数据量,这样能够很好地进行控制。

    关于对齐问题,社区提出了 FLIP-76。其解决思路为:对于实时性要求较高但数据重复性要求低的情况,可采用不对齐模式。在还有其他流尚未到达时,为不影响性能,无需理会,直接处理后续的数据。等到所有流都到达后,就可以对该流进行相关操作。

    对于 状态数据过大问题:

    FLIP-158 提出了一种通用的增量快照方案,其核心思想是以 state 为基础,能够对状态数据的变化进行细粒度的记录。具体情况如下:

    有状态算子会把状态变化写入状态后端,同时还会另外写一份到预写日志里。

    预写日志上传到持久化存储后, 确认  完成。

    state table 独立于其他部分之外,它会周期性地上传。这些上传到持久存储中的数据被称作物化状态。

    上传 state 后,之前的部分预写日志就失去了作用,能够被裁剪掉。

    14 面试官:滑动窗口有啥特点?

    Flink 支持的窗口具备两个重要属性。一个属性是窗口长度 size,另一个属性是滑动间隔。通过窗口长度和滑动间隔这两个属性,能够区分滚动窗口和滑动窗口。

   


# 字节一面大数据开发工程师面试自我介绍技巧与经验分享  # 福田品牌营销推广  # 推广与营销与推销的区别  # 义马网站推广优化  # 安阳靠谱的推广营销费用  # 网站建设小白到精通需要  # 深圳专门网站建设公司  # 钦州公司形象网站建设模板  # 软文营销的推广文案  # 营销佣金推广语  # 资阳网站官网建设费用  # 淘宝网站建设800元  # 阆中工厂网站建设  # 南京网站建设找云世家  # 昆山网站设计建设  # 网站推广策略范文  # 甘肃省网站建设空间  # 远景营销推广方案范文  # 江苏网站建设硬件配置  # 营销推广平台公司电话  # 自己会做网站怎么做推广 


相关文章: 企业网站运营融入整体经营体系的阶段与步骤解析,白云营销型网站建设  探索大连SEO的奥秘,如何让您的网站在搜索引擎中脱颖而出,山西互联网推广营销招聘  企业建设网站一般要多少钱?基础型和中端型网站费用大揭秘,常山网站推广电话多少  提升关键词排名的 9 种有效办法,外贸人必看,重庆推广策略智能营销工具公司  恩施SEO搜索推广,探索自然与文化的完美融合,针对图书推广的营销方案  中国建设银行武汉数据中心人才招聘公告,多个岗位等你来,天津正规市场营销推广  深圳电商SEO,打造爆款背后的秘密武器,地产五月营销推广文案  探索未知,如何利用自媒体营销开启你的品牌新篇章,新乡抚州seo免费咨询推广  蜜雪冰城“考编”中国邮政,瑞幸无辜躺枪?!  “花式”解暑!深圳湾区之心屏变身超级鱼缸  化妆品网站建设之行业产品分析:了解五大类产品与四类品牌定位,伊春短视频推广营销  淘宝 seo 优化包括哪些方面?关键词、标题和下架时间是关键,河北推广网站建设介绍  探索大连移动SEO的奥秘,如何让你的网站在搜索结果中脱颖而出,大参林推广营销模式  上海网站建设公司哪家好?选择合适的公司很重要,贵阳ktv网站建设  基层医院转型样本:东莞探索新路,激活中医药服务网底,网站建设的语言  合肥好SEO,探索数字时代的SEO艺术与科学,关键词SEO优化电池  通化网站建设:如何选择靠谱建站公司及设计注意事项,盐城网站建设赵宇  望山楂猛男诱惑,比椰树还色?!  网络推广新选择:乐云万词霸屏与 SEO 优化的优缺点对比,营销定位抖音怎么做推广  阜新SEO优化,打造高效网站的秘诀与策略,上海营销推广拍摄基地  2017 年 1 月百度算法调整,SEO 站长需注意这些要点,营销定位及推广策划案例  分享工具分享次数、流量及其他因素对网站关键词排名的影响,论坛网站建设哪家专业  郑州SEO矩阵排名,揭秘成功的秘诀与策略,关于网站建设入门的问题  佛山SEO优化,让您的网站在数字海洋中畅游,陶瓷品牌推广营销策划书  长沙SEO专业公司,让您的网站在搜索引擎中脱颖而出,营销推广方案生成器下载  Yandex SEO:打开俄罗斯外贸市场的关键策略,抖音如何精准推广营销策略  探索未知,如何克服对失败的恐惧,实现自我成长,常州新站做seo  2017 年遵义市住建局政府信息公开年报:内容、问题与改进措施,罗湖国内网站推广计划  演唱会门口“捞人”,海底捞太会营销了!  揭秘自媒体营销的隐藏秘诀,轻松打造爆款内容,广州seo公司怎样  探索百度SEO优化,如何让您的网站在搜索引擎中脱颖而出,创新南通网站优化  7大营销热点,承包了7月的吃“瓜”!  郑州SEO矩阵公司,助力企业腾飞的关键策略,塔城湖南网站优化推广  投标人必知!常州市工程交易系统 7.0 相关信息及注意事项,武汉网站建设策划内容  域名预订/竞价,解读整站优化服务,提升网站质量,广州微信营销推广优势  揭秘陕西SEO优化背后的真相,如何高效提升品牌曝光度?,移动电源网络营销推广  代购行业SEO优化营销,打造爆款秘诀大揭秘,手机网站建设文章  专业 SEO 优化方案制定:4 要素解析及内容编辑要点,网站推广与网站运营区别  企业网站建设策划方案:关键版块与重要作用,临海网站推广平台  揭秘自媒体营销,如何让你的品牌在信息海洋中脱颖而出,seo学习软件收录  Layui框架,SEO优化的得力助手还是营销噱头?,离石区网站推广服务电话  前端优化指南:从 head 到 body,提升网站 SEO 效果,电网网站建设方案  探索自媒体营销的奥秘,如何巧妙地吸引并留住目标受众,seo技术学习网站优化  沟通无界共建和谐:加强政风行风建设,推动从化交通新跨越,海南网站建设哪个公司好  菲律宾*SEO,揭秘成功的秘诀与策略,服装师营销推广策略模板  SEO 优化对企业网站推广的好处有哪些?,tob营销推广方案  揭秘自媒体营销的黄金法则,晋城关键词排名价位  网站建设详细步骤及流程:确定网站主题的方法与分类,市场营销推广什么专业  营销专员岗位职责解析:从展商招募到文案创作,全面提升销售能力,喀什网站建设文案模板  中铁十五局集团路桥建设有限公司惠州市分公司:了解目标市场,明确建站目的,株洲珠宝首饰网站建设 


相关栏目: 【 网络营销55532 】 【 网络推广33921 】 【 网络优化98863 】 【 网络学院69291 】 【 网络运营7217 】 【 AI推广84713 】 【 百度推广30177