ツイートからテキストマイニングなどするときに、宛先(@アカウント名)とURLを除去したいことよくありますよね。
それらを除去する正規表現を載せておきます。Pythonのreというライブラリ使って書いてます。
tweet = "取得したツイート"
# URLを削除
result = re.sub("https?://[\w!\?/\+\-_~=;\.,\*&@#\$%\(\)'\[\]]+", "", tweet)
# @ツイートの宛先を削除
result = re.sub("@[\\w]{1,15}", "", result)
一応軽く解説。URLについては他サイトで書いてあるので省略。
@ツイートの宛先は [\w]{1,15}で数字、大文字小文字のアルファベットが1〜15回続くことを表します。
ちなみにメールアドレスはこんな感じ。
result = re.sub("^[0-9a-z_./?-]+@([0-9a-z-]+.)+[0-9a-z-]+$", "", result)