此示例演示如何使用简单的正则表达式从 HTML 文档中移除标记。
示例
HTML 标记可与正则表达式 \<[^\>]+\> 匹配,这意味着:
字符“<”,后跟
由一个或多个字符组成的集合,不包括“>”字符,后跟
字符“>”。
此示例使用共享的 Regex.Replace 方法,用空字符串替换标记正则表达式中的所有匹配项。
''' <summary>Removes the tags from an HTML document.</summary>
''' <param name="htmlText">HTML text to parse.</param>
''' <returns>The text of an HTML document without tags.</returns>
''' <remarks></remarks>
Function GetTextFromHtml(ByVal htmlText As String) As String
Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
Return output
End Function
此示例要求您使用 Imports 语句来导入 System.Text.RegularExpressions 命名空间。 有关更多信息,请参见 Imports 语句(.NET 命名空间和类型)。
请参见
任务
如何:在 Visual Basic 中识别 HTML 字符串中的超链接