所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
样例描述示例 1: 输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT" 输出:["AAAAACCCCC","CCCCCAAAAA"] 示例 2: 输入:s = "AAAAAAAAAAAAA" 输出:["AAAAAAAAAA"]思路
滑动窗口 + 哈希表
- 直接统计所有长度为10的字串的个数,类似滑动窗口的思想直接遍历过去,保证窗口范围不越界。
- 哈希表存储对应字串以及其个数。
- 用substring()截取子串,[startIndex, endIndex) 注意不包含右边。
class Solution {
public List findRepeatedDnaSequences(String s) {
List res = new ArrayList<>();
Map map = new HashMap<>();
//遍历滑动窗口,保证目标子串右边界不越界 i + 10 - 1 <= len - 1
for (int i = 0; i + 10 <= s.length(); i ++ ) {
//获取子串
String t = s.substring(i, i + 10);
map.put(t, map.getOrDefault(t, 0) + 1);
//次数大于等于2就加入结果集
if (map.get(t) == 2) {
res.add(t);
}
}
return res;
}
}



