[Python] Twitterツイートの宛先(@ツイート)とURLを除去する正規表現

 ツイートからテキストマイニングなどするときに、宛先(@アカウント名)とURLを除去したいことよくありますよね。

 それらを除去する正規表現を載せておきます。Pythonのreというライブラリ使って書いてます。

tweet = "取得したツイート"
# URLを削除
result = re.sub("https?://[\w!\?/\+\-_~=;\.,\*&@#\$%\(\)'\[\]]+", "", tweet)
# @ツイートの宛先を削除
result = re.sub("@[\\w]{1,15}", "", result)

一応軽く解説。URLについては他サイトで書いてあるので省略。

 @ツイートの宛先は [\w]{1,15}で数字、大文字小文字のアルファベットが1〜15回続くことを表します。

 ちなみにメールアドレスはこんな感じ。

result = re.sub("^[0-9a-z_./?-]+@([0-9a-z-]+.)+[0-9a-z-]+$", "", result)

コメントを残す

メールアドレスが公開されることはありません。