Twitter のビックデータと経済の関係性について
A1341798 新井涼平
要旨
本稿では、Twitterの呟きから得られるビックデータと株価指数の関係性の有無、
及び業種別でのビックデータと株価指数との関係性の強さの比較を目的とし、Twitter の「不安」に関するワード及びTwitter楽観指数と、TOPIX及びTOPIX-17シリーズか ら得られる株価指数で単回帰分析を行った。
分析の結果、「不安」に関するワードと株価指数には関係性が認められなかった一 方、Twitter楽観指数と株価指数には関係性が認められ、特に建築、不動産に関わる 株価指数とTwitter楽観指数に強い関係が認められることがわかった。
キーワード:ビックデータ twitter 株価指数 単回帰分析
1、研究背景
近年、情報通信技術の進展により生成、収集、蓄積が可能、容易になる多種多様 のデータ、いわゆるビックデータが、異変の察知、近未来の予測等を通じ利用者個々 のニーズに即したサービスの提供、業務運営の効率化や新産業の創出等に活用さ れ始めている。
その中で、ビックデータの活用によって株価を予測し、投資の判断基準とする動き が近年大きくなってきており、将来的に株価予測の精度が高くなることで現在の投資 の状況が変わることが予想される。株価予測に使われるビックデータとしてネット上の ブログ、ニュース等が挙げられるが、近年特にSNSから得られるビックデータが注目 されている。
今回扱うTwitterにおいても、NTTグループがTwitterのデータを分析するサービス
を始めており、またJohan Bollenらによる“Twitter mood predicts the stock market”
の論文では落ち着き(calm)によって3日後の株価をうまく説明する事ができ、機会学 習によるモデルの作成によって最終的にダウ平均株価の動きを87.6%説明する事に 成功しているなど、Twitterから得られるビックデータの活用に期待が高まっている。
2、先行研究
日本語Twitterを用いた感情のモデル化、及びこれと経済指標との比較を行った研 究として桃井 須鎗(2012)“Twitterから生成した感情モデルと社会経済的現象との 相関”が挙げられる。
この研究では、まず日本語のツイートからPOMSに基づいた感情モデルの作成を 行い、作成した感情モデルがクリスマスのような社会的な出来事の影響を受けている ことを、また収集したツイートからPN(ポジティブネガティブ)値の推移を求め、感情モ デルと同様に社会的な出来事の影響を受けていることを示した。
次に、感情モデルと経済に関係するツイートのツイート数、PN値と平均株価の増減 の一致率を求めた。その結果、感情モデルでは「不安」尺度のツイート数を用いた予 測が最低の一致率となり、不一致だった割合として考えると63.3%の一致ということに なる。経済ツイートでは「為替」のツイートのPN値を用いた予測が最高で66.7%であっ た。この結果として、平均株価の予測に適した感情は「不安」尺度であると考えられ る。
3、本研究の分析
本研究では、まずTwitterから得られるビックデータとTOPIXを回帰分析することに より、Twitterと株価指数との関連性について研究する。次に、Twitterから得られるビ ックデータとTOPIX-17から得られる業種別の株価指数とをそれぞれ回帰分析、比較 することにより、よりTwitterとの関連性が強い業種について考察する。
4、使用データ
4.1 使用データ
本稿の分析で使用したデータは、yahooリアルタイムから取得した2016年1月2
日から2017年1月30日までの「不安」に関するワード(不安、はらはら、そわそわ、
心配だ)のツイート数、2016年12月13日から2017年1月13日までのTwitter楽観 指数、及び2016年12月13日から2017年1月30日までのTOPIX、TOPIX-17の株 価指数である。
4.2 Twitter楽観指数
Twitter楽観指数はチャートなび(http://chartnavi.com/)が提供するTwitterの分 析データである。Twitter楽観指数=「ポジティブな単語の出現数」 - 「ネガティブな 単語の出現数」であり、0より大きいと投資家が楽観的、0より小さいと悲観的と判断
できる。ツイートは、無作為に抽出した5000人のTwitterアカウントを対象とし、botに よるツイート、重複ワードを計測に含まないようにしながらGoogle社のBigQueryによ り集計することにより収集している。また感情分析は、東北大学の乾・岡崎研究室 (2008)「日本語評価極性辞書」をベースとしながらこれに株取引等で使われる専門用 語を追加するなどして、独自にカスタマイズされた合計1万語以上の辞書により、ポジ ティブ/ネガティブを判定している。
このデータを使用する理由として、ツイートを投資家のものに絞ることでよりはっきり
とTwitterと株価指数との関係性がわかる可能性があること、botによるツイートと重
複ワードを計測に含まないようにすることでより正確なデータを得られることが挙げら れる。
4.3 Twitter楽観指数の妥当性
Twitter楽観指数が大きくマイナスとなった2016年11月2日、11月22日の二日 について見てみると、11月2日にはアメリカ大統領選挙でのトランプ優勢の報道によ る日経平均株価の下落、11月22日には東北地方での地震がそれぞれ発生している。
これから、Twitter楽観指数が時事ニュース、株価と関連していることが期待できる。
5、Twitter と株価指数の関連性について
本稿では、Twitter から得られたビックデータと株価指数による回帰モデルを推定し、
最小2乗法で求めた推定結果𝛽𝛽̂にについてt検定を行う。
5.1 「不安」に関するワードと株価指数との関係性の分析方法
「不安」に関するワードと株価指数による回帰モデルを推定し、仮設検定を行う。説 明変数には、2017年1月2日から2017年1月30日までのツイートの中に出てきた
「不安」に関するワード(不安、そわそわ、はらはら、心配だ)の数、被説明変数には TOPIXを使用する。
推定モデルは以下の通りである。
Yi=α+βXi+ui (α:定数項,β:係数, ui:誤差項) Xi:i日の「不安」に関するワード
Yi:i日のTOPIXによる株価指数 この時、
�
帰無仮説 H0:β=0 対立仮説H1:β≠ 0
という仮説を有意水準10%で仮説検定する。
よって、
⎩⎪
⎪⎨
⎪⎪
⎧β�∗−0
sβ∗� > t18−1,0.05=1.740
β�∗−0
sβ∗� < t18−1,0.05=1.740
の時、有意水準10%でH0を棄却する。
5,2 Twitter楽観指数と株価指数との関係性の分析方法
Twitter楽観指数とTOPIXの株価指数による回帰モデルを推定し、仮設検定を行う。
説明変数には2016年12月13日から2017年1月13日までのTwitter楽観指数、
被説明変数にはTOPIXを使用する。
推定モデルは以下の通りである。
Yi=α+βXi+ui (α:定数項,β:係数, ui:誤差項) Xi:i日のTwitter楽観指数
Yi:i日のTOPIXによる株価指数
この時、有意水準10%の場合、自由度19のt分布の臨界点はt20−1,0.05=1.729であ る。
5.3 「不安」に関するワードとTOPIXとの関係性の分析結果。
「不安」に関するワードとTOPIXに関する推定結果は以下のようになった。
Yi=1550.9-0.00027Xi
(19.96) (-0.204)
𝑅𝑅2 =0.00259 s=16.775
ここでsは標準偏差、カッコ内の値はt値を表している。
次に推定パラメーターの有意性の検定を行う。検定する仮説は以下の通りである。
�
帰無仮説 H0:β=0 対立仮説H1:β≠ 0
この時、t分布は自由度17のt分布に従い有意水準10%の臨界点は t18−1,0.05=1.740
であるので、βはt値=-0.204>-1.740より、有意水準10%で H0は棄却されない。
以上から帰無仮説は有意水準10%で棄却されず、「不安」に関するワードと株価指数 の関連性は認められなかった。
5.4 Twitter楽観指数とTOPIXとの関係性に関する分析結果
Twitter楽観指数とTOPIXに関する推定結果は以下のようになった。
Yi=-76932.1+51.321Xi
(-1.803) (1.855)
𝑅𝑅2 =0.1605 s=1246.08
ここでsは標準偏差、カッコ内の値はt値を表している。
次に推定パラメーターの有意性の検定を行う。検定する仮説は以下の通りである。
�
帰無仮説 H0:β=0 対立仮説H1:β≠ 0
この時、t分布は自由度19のt分布に従い有意水準10%の臨界点は t20−1,0.05=1.729
であるので、βはt値=1.729<-1.729より、有意水準10%で H0は棄却される。
以上から帰無仮説は有意水準10%で棄却され、Twitter楽観指数とTOPIXとの関連性 が認められた。。
6、Twitter と業種別株価指数との関係性の強さ」の比較
上記の分析で、Twitter 楽観指数のみ株価指数との関係に有意が認められたので、
次にTwitterと業種別の関係性の強さについて比較する。
6.1 分析方法
上記の分析で、Twitter 楽観指数のみ株価指数との関係に有意が認められたので、
次にTwitterと業種別の関係性の強さについて比較する。
4.2と同様に、Twitter楽観指数と17の業種(食品、エネルギー、建築、素材化学、
医薬品、自動車、鉄鋼、機械、電機、情報通信、電力ガス、運輸物流、商社卸売、小 売、銀行、その他金融、不動産)による回帰モデルを推定し、仮説検定を行う。説明 変数には。説明変数には2016年12月13日から2017年1月13日までのTwitter 楽観指数、被説明変数にはTOPIX‐17から得られるそれぞれの業種の株価指数を使 用する。
推定モデルは以下の通りである。
Yi=α+βXi+ui (α:定数項,β:係数, ui:誤差項) Xi:i日のTwitter楽観指数
Yi:i日のTOPIX-17による業種別それぞれの株価指数
この時、有意水準5%の場合、自由度19のt分布の臨界点はt20−1,0.025=2.093であ る。
6.2
分析結果業種別にTwitter楽観指数と検定を行った時の分析結果を表にまとめると以下の
ようになる。有意水準5%の臨界点は2.093であるので、建築、不動産、その他金融の 三業種において帰無仮説が棄却され、有意水準5%で統計的に有意となった。
以上から、建築、不動産、その他金融の三業種の株価指数においてTwitter楽観 指数と官憲性が強いことが分かった。
表1
7 、結論
本稿ではTwitterから得られるビックデータと日本経済の関係性の有無、及び業種
による強さの差違を調べるため、Twitterのツイートから得られたデータである「不安」
に関するワード及びTwitter楽観指数と、株価指数、及び業種別の株価指数とについ て、単相関係数を調べると共にt検定を行った。結果、「不安」に関するワードと株価指 数には関係性をみとめることができなかったが、Twitter楽観指数と株価指数には相 関が認められ、業種別に見たときには建築、その他金融、不動産の三業種について 特に強い相関を認めることができた。また、Twitterとの相関の強さを比べたとき、17 ある業種で強さの数値が大きく変わることがわかった。
8、考察
まず「不安」に関するワードと株価指数に関係性を認められなかった理由として、ツ イート数に対して処理を行わなかったためリツイート、botのツイート等、明らかに経済 活動と関係性のない情報が多く入ってしまったからであると考えられる。また、今回は
α t β t R^2
建築 -90002 -2.437 377.547 2.498 0.257
その他金融 -34636.9 -2.159 278.215 2.298 0.226
不動産 -59092.3 -2.082 200.328 2.161 0.206
鉄鋼 -39872.3 -1.88 192.761 1.985 0.179
商社卸売 -77535.8 -1.795 257 1.846 0.159
情報通信 -40629.7 -1.746 228.84 1.841 0.158
機械 -63096.7 0.102 199.849 1.78 0.149
医薬品 -15771.8 -0.971 90.362 1.109 0.063
エネルギー -18086.4 -0.897 158.918 1.007 0.053
銀行 -14555.7 -0.768 133.74 0.886 0.004
素材、化学 -26437.6 -0.646 131.699 0.701 0.026
食品 -13243.9 -0.377 50.105 0.44 0.106
運輸物流 -9139.8 -0.305 66.864 0.379 0.007
電機 -10483 -0.282 80.508 0.341 0.006
自動車 -5945.3 -0.232 35.956 0.318 0.005
小売り -8551.4 -0.236 54.184 0.298 0.004
電力、ガス 2280.7 0.14 -0.748 -0.003 6.91E-07
先行研究の結果から「不安」に関するツイートのみを収集したので、適切な処理をしな がら、他の感情のツイートも同時に収集することで新しい事実の発見が期待できる。
Twitter楽観指数と株価指数には関係が見られたので、先行研究の通り、Twitter
を日本経済、株価指数の考察に用いることができる可能性を見いだせた。また、業種 によって関係性の強さに大きな差が見られたことから、Twitterのデータを活用するた めには業種による関係の強さの差違を意識しなければならないと考える。今回の研 究では建築、不動産、そのた金融の三業種については強い関係性があるという結果 が出たので、これらの業種の経済動向を考える際はTwitterから得られるビックデー タが指数の一つとして活用できると考える。今回の研究ではTwitter楽観指数を用い たが、今後他のTwitterから得られるビックデータを用いて検証していくことによって、
Twitterと経済の関連性についてより良く説明することを考えていきたい。
9、参考文献
・山本拓 竹内明香(2013)『入門計量経済学 Excelによる実証分析へのガイド』
・桃井 達明 須鎗 弘樹 (2012)“Twitterから生成した感情モデルと社会経済的現象 との相関”
・乾・岡崎研究室(2008)「日本語評価極性辞書」
・Johan Bollen ,Huina Mao, ,Xiao-Jun Zen (2010)“Twitter mood predicts the stock market”
http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html
・総務省「ビックデータとは何か」
http://www.chartnavi.com/
・チャートなび http://k-db.com/
・株価データサイト k-db.com