您至少有两个选择。第一个很慢很干净,第二个又快又脏。
让我们从第二个选项开始-内置的Hive函数
regexp_extract:
SELECt id, regexp_extract(datastring, '^\{"(\d+)".*$', 1) AS numstring FROM your_table完毕!
regexp_extract接受三个参数:字符串,正则表达式和组索引。如果regexp与字符串匹配,则
regexp_extract返回由组索引指定的regexp组。
第一种选择是用Java编写自己的UDF,它将使用Jackson或其他方法从数据字符串中提取numstring。我会去的
regexp_extract。就是我



