【Sisense Plugin】Word CloudでSlackの頻出名詞を可視化する

セットアップ

まずはSisenseコミュニティのサイトからWord Cloudのプラグインをダウンロードして、サーバーにインストールします。

https://support.sisense.com/hc/en-us/community/posts/115007701128-Word-Cloud-Plugin

download_page

ダウンロードしたファイルを解凍し、下記のパスに置きます。

C:\Program Files\Sisense\app\plugins\

関連サービスをリスタートします。

今回の対象データ

今回のデータは、弊社、INSIGHT LABのSlackの「全メッセージ」を対象としました。詳しい取得方法については今回は割愛しますが、全従業員（累計96名）の全メッセージのメッセージ内容のみ（返信メッセージも含む）を抽出し、テキストファイルとして出力してあります。

全従業員　累計96人
抽出期間　約3年ほど
データ件数　45000件

※赤枠のTextカラムが対象です

sento5

前処理

SisenseでWord Cloudを作成するためには、頻出単語とそのカウント数をリストで洗い出す必要があります。今回は、Pythonとオープンソースの形態素解析エンジンであるMeCabを使用しました。

MeCabのセットアップ

1)MeCabの関連のファイルをインストール

Windows環境へのセットアップは環境変数にパスを追加したりと、少し面倒です。こちらのブログを参考にさせていただきました。各自、インストールをして頂ければと思います。

https://techacademy.jp/magazine/22052

2) Python環境のセットアップ

Python上からMeCabを使用するために、mecab-python3をインストールする必要があります。これは、シンプルにpip install でOKです。

pip install mecab-python3

Pythonコーデイング

詳細は割愛しますが、処理としては以下の手順で行いました。

必要なモジュールのインポート
テキストファイルを読み込み
MeCabで形態素解析。名詞のみをリストに格納
頻出順に出力
CSVファイルとして書き出し

最終的なコードがこちらです。

import csv
import MeCab
import sys
import re
from collections import Counter

# テキストファイル読み込み
with open('<ファイルのパス>', encoding='utf-8') as f:
    data = f.read()

# パース
mecab = MeCab.Tagger('/usr/local/lib/mecab/dic/mecab-ipadic-neologd/')
parse = mecab.parse(data)
lines = parse.split('\n')
items = (re.split('[\t,]', line) for line in lines)

# 動詞をリストに格納
words = [item[0]
for item in items:
    if (item[0] not in ('EOS', '', 't', 'ー') and
    item[1] == '名詞' and item[2] == '一般')]

# 頻度順に出力
counter = Counter(words)
header = ['word','count']

# データをCSVに書き出し
with open('sample_slack.csv','w',newline='',encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(header)
    for word, count in counter.most_common():
        writer.writerow([word,count])