栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Flink——支持的数据类型及UDF函数

Flink——支持的数据类型及UDF函数

数据类型
  1. 基础数据类型
    Flink 支持所有的 Java 和 Scala 基础数据类型,Int, Double, Long, String…
  2. Java 和 Scala 元组(Tuples)
  3. Scala样例类(case classes)
  4. Java简单对象(POJOs)
  5. 其它(Arrays, Lists, Maps, Enums, 等等)
UDF函数
  1. 函数类
    Flink 暴露了所有 udf 函数的接口(实现方式为接口或者抽象类)。例如MapFunction, FilterFunction, ProcessFunction 等等。
//自定义一个函数类
class MyFilter extends FilterFunction[SensorReading]{
  override def filter(value: SensorReading): Boolean =
    value.id.startsWith("sensor_1")
}

也可以将函数实现成匿名类

val flinkTweets = tweets.filter(
	new RichFilterFunction[String] {
		override def filter(value: String): Boolean = {
			value.contains("flink")
		}
	}
)

我们 filter 的字符串"flink"还可以当作参数传进去。

val tweets: DataStream[String] = ...
val flinkTweets = tweets.filter(new KeywordFilter("flink"))
class KeywordFilter(keyWord: String) extends FilterFunction[String] {
	override def filter(value: String): Boolean = {
		value.contains(keyWord)
	}
}
  1. 匿名函数
val tweets: DataStream[String] = ...
val flinkTweets = tweets.filter(_.contains("flink"))
  1. 富函数 Rich Functions
    “富函数”是 DataStream API 提供的一个函数类的接口,所有 Flink 函数类都有其 Rich 版本。
    它与常规函数的不同在于,可以获取运行环境的上下文,并拥有一些生命周期方法,所以可以实现更复杂的功能。
  • RichMapFunction
  • RichFlatMapFunction
  • RichFilterFunction

  • Rich Function 有一个生命周期的概念。典型的生命周期方法有:
  • open()方法是 rich function 的初始化方法,当一个算子例如 map 或者 filter被调用之前 open()会被调用。比如数据库的连接
  • close()方法是生命周期中的最后一个调用的方法,做一些清理工作。
  • getRuntimeContext()方法提供了函数的 RuntimeContext 的一些信息,例如函数执行的并行度,任务的名字,以及 state 状态。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/585128.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号