栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何使用Java的Scanner类和正则表达式标记输入?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何使用Java的Scanner类和正则表达式标记输入?

“扫描程序”的名称有点误导,因为该词通常用于表示词法分析器,而这并不是Scanner的意思。所有这些都可以替代

scanf()
您在C,Perl 等人中
找到的功能。像StringTokenizer和一样
split()
,它被设计为向前扫描,直到找到与给定模式的匹配为止,然后跳过的任何内容都将作为令牌返回。

另一方面,词法分析器必须检查和分类每个字符,即使只是为了确定是否可以安全地忽略它们也是如此。这意味着,在每次匹配之后,它可能会应用多种模式,直到找到
从该点开始 匹配的模式。否则,它可能会发现序列“ //”,并认为它已找到注释的开始,这时它确实位于字符串文字中,而只是没有注意到开头的引号。

当然,它实际上要比这复杂得多,但是我只是在说明为什么诸如StringTokenizer

split()
和Scanner之类的内置工具不适合此类任务。但是,可以将Java的regex类用于有限形式的词法分析。实际上,由于添加了新的Matcher
API来支持Scanner类(即区域和
usePattern()
方法),因此添加了Scanner类变得更加容易。这是在Java的regex类之上构建的基本扫描器的示例。

import java.util.*;import java.util.regex.*;public class RETokenizer{  static List<Token> tokenize(String source, List<Rule> rules)  {    List<Token> tokens = new ArrayList<Token>();    int pos = 0;    final int end = source.length();    Matcher m = Pattern.compile("dummy").matcher(source);    m.useTransparentBounds(true).useAnchoringBounds(false);    while (pos < end)    {      m.region(pos, end);      for (Rule r : rules)      {        if (m.usePattern(r.pattern).lookingAt())        {          tokens.add(new Token(r.name, m.start(), m.end()));          pos = m.end();          break;        }      }      pos++;  // bump-along, in case no rule matched    }    return tokens;  }  static class Rule  {    final String name;    final Pattern pattern;    Rule(String name, String regex)    {      this.name = name;      pattern = Pattern.compile(regex);    }  }  static class Token  {    final String name;    final int startPos;    final int endPos;    Token(String name, int startPos, int endPos)    {      this.name = name;      this.startPos = startPos;      this.endPos = endPos;    }    @Override    public String toString()    {      return String.format("Token [%2d, %2d, %s]", startPos, endPos, name);    }  }  public static void main(String[] args) throws Exception  {    List<Rule> rules = new ArrayList<Rule>();    rules.add(new Rule("WORD", "[A-Za-z]+"));    rules.add(new Rule("QUOTED", ""[^"]*+""));    rules.add(new Rule("COMMENT", "//.*"));    rules.add(new Rule("WHITESPACE", "\s+"));    String str = "foo //in "comment"nbar "no //comment" end";    List<Token> result = RETokenizer.tokenize(str, rules);    for (Token t : result)    {      System.out.println(t);    }  }}

顺便说一句,这是我所发现的唯一对

lookingAt()
方法有用的方法。:D



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/508906.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号