如何:在 Visual Basic 中标识 HTML 字符串中的文本

更新:2007 年 11 月

此示例演示如何使用简单的正则表达式从 HTML 文档中移除标记。

示例

HTML 标记可与正则表达式 \<[^\>]+\> 匹配,这意味着:

  1. 字符“<”,后跟

  2. 由一个或多个字符组成的集合,不包括“>”字符,后跟

  3. 字符“>”。

此示例使用共享的 Regex.Replace 方法,用空字符串替换标记正则表达式中的所有匹配项。

    ''' <summary>Removes the tags from an HTML document.</summary>
    ''' <param name="htmlText">HTML text to parse.</param>
    ''' <returns>The text of an HTML document without tags.</returns>
    ''' <remarks></remarks>
    Function GetTextFromHtml(ByVal htmlText As String) As String
        Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
        Return output
    End Function

此示例要求您使用 Imports 语句来导入 System.Text.RegularExpressions 命名空间。有关更多信息,请参见Imports 语句(.NET 命名空间和类型)

请参见

任务

如何:在 Visual Basic 中识别 HTML 字符串中的超链接

如何:从字符串中剥离无效字符

其他资源

分析字符串 (Visual Basic)