ANPI NLP:メインページ

提供:ANPI_NLP

移動: 案内, 検索

東日本大震災のためのデータマイニング・自然言語処理に関する情報のページです。

アカウントを作成してログインすることにより誰でも更新できるようになっています。ディスカッションは#anpi_nlpでお願いします。

目次

活動目的(文責:村上浩司:@kmura)

現在、東北関東大震災に関して様々なところで種々の情報が飛び交っています。その中でも、特に被災された方々の安否情報は最も重要な情報であり、できるだけ正確な情報を大量に整理する必要があります。しかしながら実際は情報は大量でかつ様々なところに分散して存在しているために探しにくいだけでなく、情報を提供する側と情報を必要とする側で適切に必要な情報を共有できていないと考えられます(例えば、どちらかが人の名前を1文字間違える、平仮名と漢字との違い、ある人の安全が確認されるとその情報は電子的に残されにくい、など)。

我々は日々言語処理を専門とした研究者、技術者であり、こうした情報の解析、集約、マッチング(名寄せなど)などにも従事しています。今回、Twitterやブログ、Mixiなど、多くのCGMから個々に述べられている人の安否情報に注目し、Google社の"Google Person Finder"上のデータと照合しながら、最新の安否情報をできるだけ整理するというのが目的です。特に、安全を確認された方の情報がこうしたポータルに最終的に登録されないことが多いことから、こうした情報を共有できるように多くの情報源から分析する必要があります。

これらの活動は営利目的ではありません。このサイトも、"みんなの翻訳"の方のご好意で立ち上げていただいています。 我々は技術者として今この時点でできることを行う、必要な言語資源を協力して重複なく構築することが目的であり、それを達成することを目標にしています。

多くの言語処理技術者の方々が参画してくれればと願っています。 よろしくお願いいたします。 2011/03/15

タスク

大きなタスクとしては、楽天技研ではGoogle社のPerson Finderの情報を使わせて頂いており、この情報とTwitterなどから得られる安否確認情報を照合、更新することでPerson Finderの情報を充実させること、が挙げられます。このタスクはできるだけ早く、かつ正確な情報の抽出が社会的に渇望されていると考えられます。(2011/03/16 @kmura)

その他のタスク

タスクごとに、細分類ページを立ち上げると良いと思います(2011/03/17 @Yucchiiro)

アイデア一覧(皆さんの意見を集約 2011/03/17 13:50 @Yucchiiro)

  • 点在する安否情報サイトの情報集約
  • テキストから地域を特定し、地域ごとに情報を纏め上げて提示するサイト
  • 情報の交通整理(安否情報・励まし・災害情報・原発/放射線情報・物資情報などに分類)
  • 情報の信頼性・信ぴょう性判定(信ぴょう性の時間的変化なども。例:うがい薬が良い→うがい薬は飲むな)
  • 現地物資情報の集約
  • 被災地の移動経路情報の集約
  • 被災者受入状況の集約 (公開用ポータル参加者用ページ)

下のコーパスに連接文字列検索システムを適用してみました。データを眺めるのに役立てば。(2011/03/17 21:04 東大・吉田)

リソース

辞書

  • 岩手、宮城、福島、茨城の地名辞書(非公開。詳細は 楽天技研 村上さん @kmura まで)

コーパス


  • 安否情報関連ツイートコーパス: 3月14日 16:45までのデータ ハッシュタグを元に取得 61,376ツイート 取得したタグと件数 
    • 安否情報関連ツイートコーパスに、人名・場所・組織名をタグ付けしたデータ(3/16の段階で200件)(非公開。詳細は 楽天技研 萩原 @mhagiwara まで)→以下のタグ付けタスクフォールにより不要に。
    • 安否情報関連ツイートコーパスに拡張固有表現を自動でタグ付けしたデータ(by 東工大 橋本さん @taiichi84)
    • 安否情報関連ツイートコーパスに人名・地名をKyTeaで 自動タグ付けしたデータ(by 京大 グラム @neubig) ←の分割ファイル mod100=00~99(by 坪井)
  • 安否情報関連自動分類ツイートコーパス: 機械学習手法を用いて自動分類したツイートデータ(45,510ツイート.#anpiなどのタグでなくテキスト内容を基にした分類結果です) (by 東工大 高村大也 @hjtakamuraまで) Hjtakamura 2011年3月22日 (火) 09:32 (JST)
  • 安否情報関連ツイートコーパス0316増分: 3月16日 18:30までのデータ ハッシュタグを元に取得 36,592ツイート

解析器

  • ツイート分類器:ツイートを自動的に「安否確認」などのクラスに分類するスクリプト (京大 グラム @neubig)
  • ツイート分類器 2:ツイートを自動的に「安否確認」などのクラスに分類するスクリプト (NII 松林 @Yucchiiro, 東大 三輪 @mmiwa)
  • 地名抽出・ジオコーダ: 地名・人名を含むテキストにタグ付けとジオコーディングを行うウェブサービス (東大CSIS 相良 @sagara_takeshi)

データのアップロードとダウンロード

タグ付き安否情報ツイートデータはタグ付き安否情報ツイートデータ専用サイトにアップロードしてください。(@kmura 2011年3月30日 (水) 16:28 (JST))

その他の、個人情報などを含むデータはデータ専用サイトにアップロードしてください。詳しくは下記の「アナウンス」をご覧ください。

何をするべきか

自然言語処理の技術を適用して何をするべきかをリストアップしてください。

安否情報ツイート(上記)に固有表現・安否情報タグを付与する

タグ付け結果のダウンロードと文字列検索と自動タグ付け

タグ付けデータはタグ付き安否情報関連ツイートコーパスデータベースからダウンロード可能です。

安否情報検索で、上記データベースを文字列検索できます。

タグ付け グラムさんのプログラムを使ってタグ付けします。アップロードするファイルの形式は「ツイートID 投稿者 ツイート」のTSVです。4桁めにタグがあってもかまいませんが、その場合には上書きされます。

分担

担当がかぶらないように、行番号の mod(剰余)で分担することにしました。作業を始める前に分担リストに担当部分を書きこんでください。

  • とりあえずこの辺でタグ付けはいったん止めたいと思います。次のアクションについて検討をしたいと思います。(@kmura 2011/3/17 11:54)
    • 「止める」というのは65以降のデータへの新規の付与に対してです.現在作業中の方は引き続きよろしくお願いします.新規参加を検討していた方は,これらのデータをどのように使っていくかを考えましょう.(@kmura の代理で @jmizuno 2011/3/17 12:09)
      • ただ、もちろんタグ付けを希望される方はどんどんやっていただいて構いません。(@kmura 2011/3/17 13:21)

安否情報関連ツイートコーパスに人名・地名をKyTeaで自動タグ付けしたデータ(by 京大 グラムさん) を分割したファイル群(mod100=00~99) (by 坪井)

安否情報ツイートと避難所を関連付ける

どうやって

  1. 安否情報ツイート(Mのみ?)内の location タグをジオコーディングする.(GoogleMapAPIが使えるかも)
    • google maps API を使って緯度経度を付与するスクリプト作成に着手しました。<location ... lat="37.05" lng="140.88">...</location> の形式でインラインに付与するにするつもりです。 --松原 2011年3月17日 (木) 15:01 (JST)
    • とりあえず作ったスクリプトはこちらの通りです。Google Maps APIが返すものを決め打ちで埋め込むだけのものです。<location>...</location>という部分を次のように置き換えます:取得に失敗したときは <location geocoded="false"> ...</location>、成功したときは<location geocoded="true" lat="37.05" lng="140.88">...</location>
    • スクリプトを使って得た結果のサンプルを置きます:--松原 2011年3月17日 (木) 16:41 (JST) データ保管サイトのgeocoded/Tweets.1645c.tsv.mod100.0.tagged.geocoded-sample.tsvに移しました。@masaoutiyama 2011年3月19日 (土) 08:13 (JST)
    • 国土交通省の位置参照情報ダウンロードサービスのデータを用いて住所地名などを緯度経度情報に変換しては? http://nlftp.mlit.go.jp/isj/ --浅原 2011年3月17日 (木) 16:35 (JST)
      • とりあえず MeCab 用辞書に変換してみたが、再配布していいものか。変換プログラムは ファイル:Addr2mecabdic.rb.zip --浅原 2011年3月17日 (木) 17:05 (JST)
  2. 避難所リストの収集とジオコーディング
  3. 安否情報ツイートと避難所のジオコーディングの距離を計算して,関連付ける

安否情報ツイートを地図上に表示する

概要:sinsai.infoのように、位置と関連付けられた情報を地図上に表示し、地域ごとの情報を調べやすくする。

どうやって

  1. 上記の避難所との関連付けと同じようにしてジオコーディングで位置情報をとる。
    • twitter APIでとれる位置情報も使えるかもしれません。--松原 2011年3月17日 (木) 22:59 (JST)
  2. 地図に載せる。
    • sinsai.infoにデータ提供してインポートしてもらう、google maps オーバーレイをつかう、などの方法が考えられます。
      • sinsai.infoは人手のレポートによるものですが、ANPI_NLPのデータでその補助をするなど、連携ができるとよいと思います。 --松原 2011年3月17日 (木) 22:59 (JST)

災害情報を外国語に機械翻訳・通訳する

在日外国人のための情報提供に自然言語処理、機械翻訳技術を応用する

どうやって

  1. 災害情報に関する辞書・対訳資源の整備
  2. 災害情報の日本語から外国語(英語・中国語・韓国語・ポルトガル語が需要が高い)への自動翻訳および翻訳資源

関連する情報をお持ちの方は教えてください。また、個人的に整備している災害関連用語の日中対訳辞書を公開することを考えています Mhagiwara 2011年3月18日 (金) 09:35 (JST)

参考: 多言語・情報弱者対応災害支援リンク集 http://www.chilin.jp/dz/dz.html @mamoruk 2011年3月23日 (水) 14:17 (JST)

被災者受入状況を集約する

ページを分けました 『被災者受入情報の集約akf 2011年3月20日 (日) 17:12 (JST)

救助要請の抽出

救助要請の抽出 ページを分けました。@masaoutiyama 2011年3月20日 (日) 17:31 (JST)

ボランティア情報の整理

助けあいジャパン ボランティア情報ステーションのボランティア情報の整理。岡本(@arg)さんからの依頼です。

ボランティア情報の整理に移しました。@masaoutiyama 2011年3月28日 (月) 15:36 (JST)

参加者

ツイッターIDのアルファベット順に参加者をリストしてください。できれば写真もアップロードしてください。


安否情報ツイートへのタグ付与 [1][2] から抽出してリストを作りました。ご自分の名前が載っていない、載せなくてよい、という場合は適宜追加、修正をお願いします。 --松原 2011年3月18日 (金) 13:13 (JST)
ツイッターIDのアルファベット順に参加者をリストしました。@masaoutiyama 2011年3月21日 (月) 08:53 (JST)

受賞

2011年度人工知能学会現場イノベーション賞

銀賞:ANPI_NLP 東日本大震災における自然言語処理技術を応用した安否情報確認支援」

http://www.ai-gakkai.or.jp/jsai/info/award-innov.html

アナウンス

データの取り扱いにつきまして(@kmura 2011年3月18日 (金) 14:17 (JST))

  • 個人情報を含むファイルは ANPI_NLP にはアップロードしないでください。
  • タグ付き安否情報ツイートデータは下記のみにアップロードしてください。

https://data.ecom.trans-aid.jp/ANPI_NLP/twitter/

  • その他の個人情報を含むファイルは以下にアップロードしてください。

https://data.ecom.trans-aid.jp/ANPI_NLP/

  • このサイトには認証がかかっていますので、それらを知りたい方は@kmura まで DM をお願いします。
    • 情報をご存知の方々にDMしていただいても構いません(後ほどリストアップします)(Koji.murakami 2011年3月19日 (土) 17:53 (JST))
  • 個人情報を含まないデータについては、これまで通り、ANPI_NLPにアップロードしてください。

Wikiの署名機能について:

~~~~

と書くと、署名できます。以後、Wikiへの書き込みは、必ず署名付きでお願いいたします。 このWikiはMediaWikiなので、その他の記法もWikipediaの記法と同じです。Niam 2011年3月17日 (木) 15:11 (JST)

個人用ツール