import rehtmlString = '</dd><dt> Fine, thank you. </dt><dd> Molt bé, gràcies. (<i>mohl behh, GRAH-syuhs</i>)'SearchStr = '(</dd><dt>)+ ([w+,.s]+)([&#d;]+)(</dt><dd>)+ ([w,swsw?!.]+) ((<i>)([ws,-]+)(</i>))'Result = re.search(SearchStr.depre('utf-8'), htmlString.depre('utf-8'), re.I | re.U)print Result.groups()这样工作。该表达式包含非拉丁字符,因此通常会失败。您必须解码为Unipre并使用re.U(Unipre)标志。
我也是一个初学者,我自己也遇到过几次这个问题。



