So-net無料ブログ作成
サーチャー ブログトップ

Google ScholarはWeg of Scienceを超えている!? [サーチャー]

image002.jpg
("Google Scholar"に期待する文献の引用関係を可視化したマップ)

業務で学術論文を検索する機会が増えた。問題に適用可能な統計的方法やAI技術をサーベイするためである。無料で検索できる"Google Scholar"を非常に重宝している。PDFも容易に検索できるし、"Google Books"との連動により書籍と論文との引用関係を把握できる。しかも、"Google Books"は書籍の一部を全文検索できてしまうのも大きな強み。とても使いやすい。

Infopro2005に参加した時にハワイ大学のPÉTER JACSÓ教授という人が講演で、”Google Scholar"は使えないという趣旨のことをいくつかの根拠とともに発言していた。確かに、2005年当時は"Google Scholar"の利便性は左程ではなかったし、"Google Books"との連携もなかった。データの正確性については今でも問題を抱えている可能性はあるが、進歩していることは疑いようのない事実である。

文献の引用情報といえば、"Web of Science"(WoS)である。STNでは"SCISEARCH"という別の名前のファイルとして使用できる。WoSの強みはノーベル賞予測にも使われているほどの高精度のデータと引用関係のグラフ化機能であろう。キーとなる論文を一つでも見つければすぐに関連論文を入手できてしまう。それらの機能は研究のサーベイを行う際に重要になる。

"Google Scholar"と"Web of Science"。両者はライバル関係にある。前者は無料だが、後者は有料。しかもかなりの高額である。WoSの強みは正確なデータと引用関係の可視化だが、それが必要な人は一部の人に限られる。WoSには"Google Books"のような書籍の全文データは持たないし、今後も収録可能性は低いとみている(そこまで金をかけるだろうか)。引用関係の可視化アルゴリズムなんてたいしたことないので、優位な機能とはならない。とすれば、WoSの優位性はデータ精度のみ。自然言語処理が発達したらその優位も崩れるのではないだろうか。そして、多くの人は特許調査のような高精度のサーベイを必要とはしていない。

高額な費用を払える大学や一部の大手企業でしかWoSを使うことができないので、"Google Scholar"を選択人が増えるのは当然のシナリオ。そして、ほとんどの場合それで事足りるのである。"Google Scholar"の簡便なインターフェイスに慣れてしまうとWoSは使いにくいのである。

加えて、"WoS"にはデータの偏在の問題が指摘されている(http://www.libt.kyutech.ac.jp/libt/2004roadmap/004denshi.html)。例えば、日本の論文などの収録が不十分だったりする。"Google"のミッションは全ての情報を整理すること。この問題すらも解決されてしまうのかもしれない。

現状では、両者は補完関係にあると思う。それぞれ優位な機能を持っているので上手く使い分けた方がサーチの精度が向上するだろう。だが、"Google Scholar"は十分に"WoS"を超える可能性があると考えている。そして、その日が早く来ることを願ってやまない。サーチャー時代に、"WoS"を提供するTHOMSON REUTERS社のgreedyなやり方には本当に辟易させられたからである。がんばれ!Google!
 

サーチャー時代に身に着けた力 [サーチャー]


情報調査力のプロフェッショナル―ビジネスの質を高める「調べる力」

情報調査力のプロフェッショナル―ビジネスの質を高める「調べる力」

  • 作者: 上野 佳恵
  • 出版社/メーカー: ダイヤモンド社
  • 発売日: 2009/03/13
  • メディア: 単行本



サーチャー時代に身に着けた力を発揮している。新たなビジネスモデルや技術を開発する際に既存の情報をあつめることはマストである。如何に優れたアイディアであったとしても、車輪の再発明には意味がない。

サーチャー時代に学んだことで役立つことは以下のようなことである。

1.複数の情報源にアクセスできる
2.多様な観点から検索できる
3.ちょこっと検索で結論を出さない

上記はいずれも重要だ。とにかくいろいろな種類の網を幅広く仕掛けることが情報を網羅的に収集するには重要なことである。そして、ちょこっと検索では結論を出さない。世界は広い。ちょっと検索しただけで結論が出るならサーチャーに用はないはずだ。

今、私はある問題を解決するための技術についての調査(先行技術調査)と、あるビジネスを統合的に発展するために、キーとなる会社の戦略について調査している。論文・特許から新聞・雑誌記事まで横断的に検索することができる。必要な情報に最小の労力で達することができる。そんな自負がある。

でも、単なるサーチャーは多くの場合、情報を探すことだけに夢中になってしまい、その先の展開をイマイチ考えることができないのは気のせいだろうか。特許庁が「スーパーサーチャー」構想を打ち出している。定義は、「新事業参入を狙う企業に対して特許文献検索から研究開発の方向性までを提案できる」サーチャーだということだ。私はこの構想に一部賛同している。

情報を探した後は、「思考」しながら断片的な情報のピースをつなぎ合わせてパズルを完成させなければならない。そして、足りないピースを探すのだ。それはサーチというよりも、サーベイと言う方が適切なのだろうと思う。足りないピースさえ分かれば、後はそれを埋めるためのアイディアを打ち出すというステップになる。

足りないピースを探す=問題発見とパラフレーズすることもできる。特許庁が打ち出す「スーパーサーチャー」とは少なくともこの問題発見能力を備えている必要があるだろう。そうじゃないとまともな提案などできない。ところが、これが得意なサーチャーに会ったことがない。また、サーチャーをパワーアップさせた概念に「インフォプロ」なるものがある。「サーチャーからインフォプロへ」という標語が数年前に登場したが、「インフォプロ」になるべく問題発見能力なりサーベイ能力なりを身に着けよう!などということを聞いたことがない。

ところで、私は「インフォプロ」なる用語はダサいし定義が不明確なので全く好きではない。私なりのサーチャーからの脱皮は、高度なサーベイ能力と、現在の私の職務である「データマイニング」(膨大な量のデータ処理能力)をサーチ能力に付加したイメージとなる。「サーチ+サーベイ+データマイニング=?」。この概念だ。これは「スーパーサーチャー」でも「インフォプロ」でもない。敢えて概念を呼称するとすれば「BIコンサルタント」(仮称)などとなるのかもしれない。名称がしっくりいっていない気がするので、じっくり考えてみることにする。

もうひとつのWPI [サーチャー]

3461750
(ISSN: 0172-2190 Imprint: ELSEVIER)

もうひとつのWPI。World Patent Information。
(Thomson社のそれはWorld Patent Index)

日本で言うところのJSTが発行する「情報管理」的な位置づけのジャーナルである。グローバルな知財の情報検索や解析をイシューにしているので、EPOのPI Newsと同様に世界の最新情報をチェックするのに役立つ。

論文のレベルも高くSTNの先端的な情報検索法やBRICs諸国の知財情報管理の事情やデータマイニング(KDD)を使ったような解析法などを扱ったものが見られる。知財情報担当者ならば読んでおいても損はないだろう。

このWPIはScienceDirectから論文のPDFを有料でダウンロードできる。と、思っていた。ところが、最新号が無料で提供されているではないか!これっていつからなのだろうか。今までも最新号は無料で入手できたのだろうか。どなたかご存知の方がいたらご教示くださいお願いしますm(_ _)m。

最新号には、"Properties of the USPTO patent citation network: 1963–2002"という米国特許の引用分析に関する興味深い論文がある。筆者は計量経済学者だ。このような特許情報の数理解析が今後も盛んに行われることだろう。この分野はまだまだ発展途上だからだ。そして、小職もその一翼を担えるよう鍛錬しようと思う。「少年老いやすく学なり難し」。頑張ろう!

STNのe-Learning [サーチャー]

3401988

サーチャーを引退してから数ヶ月。久しぶりにCASのサイトを覗いてみた。CASってSTNのオンラインセミナーなんてやっているのか。知らなかった。これなら、わざわざ化学情報協会に行かなくても自宅で勉強・・・って時差の問題がありますね。でも、英語の勉強にもなってよさそうである。今度、時間のある時にでも受講してみようかな。サンプル検索とかどうやるんだろう(謎。化情協ならやり放題なわけであるが。

■STN e-Learning on CAS
http://calendar.cas.org/

USGENEが使えるようになって配列検索も奥深さを増していると思われる。DGENEやREGISTRYに加えてUSGENEも必須だろう。本気で調査やろうとしたら大変なんだろうな。小生はしばらく関係ないですが・・・。今はSTNじゃくてSASを使っているデータアナリストなので検索はやらんのです。


インフォメーションサイエンティスト?? [サーチャー]

3382115

特許検索競技大会2009の結果が発表されたようである。

結果資料の中に↑の資料があるらしい。「インフォメーションサイエンティスト」なる概念が提出されているが、こんなものは別に新しくもなんともない。昔から優れた情報担当者は「技術・特許・検索」の三拍子が揃っていたのではないか。今更なにを?っていう感じである。

「法律」や「技術」に加えて「経営」情報としての特許情報の活用が叫ばれて久しい。特許もR&Dも「経営」という大きな事象の中で最適化される必要がある。将来的に儲からなければ意味はないのだから。

特許情報も膨大な蓄積があるが、科学的に戦略を策定するツールとしてのデータマイニングの適用があまり進まない。これは、情報担当者(サーチャーを含める)が「データ解析」にはあまり興味を持ってこなかったことが一因と思っている。膨大な特許情報をデータマイニングにより解析して最適な意思決定の材料にすることができる人材が必要とされていると思う。

【参考】
■特許検索競技会2009結果
http://www.nefnet.co.jp/link/Internet/kensakutaikai.pdf
■123のブログ
http://ameblo.jp/123search/entry-10399685013.html

サーチャーのためのプログラミング概論3 [サーチャー]

データ解析を深くしかも早く仕上げるにはプログラミング技術を覚えていたほうが良いということは前述した。だが、プログラミングができるサーチャーは希少である。情報検索とデータ解析は異なる技術を用いるからだ。

いわゆる特許調査を担当しているサーチャーがパテントマップを作ろうとすると戸惑うことが多いように思う。そのような仕事を初めて引き受けた場合、とりあえずSTN AnavistやAurekaなどの商用マイニングソフトを使おうとするのである。だが、これらのソフトはデータ解析の立場から言えば、仮説発見型の探索的データ解析を行うものである。つまり、探索的な思考法をマスターしていないと使えないことになる。慣れが必要ということだ。

しかも、商用マイニングソフトはブラックボックスである。一般にサーチャーはデータ解析の知識がないので吐き出される結果を信頼するしかない。何をやっているのか分からないまま、出力結果に恣意的な解釈を付すのである。これではダメだ。もうちょっとデータそのものを自身で操って理解を深め、よく知っているアルゴリズムで処理する必要があるのではないだろうか。そうすれば、解釈の質も向上すると思う。その意味で、NGBの野崎氏の活躍は注目に値する(URL:http://www.infosta.or.jp/seminar/semi091118.html)。

さて、ここまでは前置き(長い!)。データ加工(操作)のためにプログラミングが必要だと思っているサーチャーは割と多いと思う。特にマップを作ったことがある人なら尚更だろう。だが、プログラミングはやや敷居が高い。上達するにもコツが必要になる。コツの一つは前述(http://ipintelligence.blog.so-net.ne.jp/2009-09-18)のとおり、「問題意識」を持って自前のプログラミングを作ってみることだった。もう一つは、既存プログラムの改良を試みることである。

プログラミング初級者が一からコーディングするのは大変である。Web上にはどうやったら自前のプログラミングができるようになるのか?と悩んでいる人も見受けられる。そういう人は、まず既存のコードをちょっと改良して自分の業務にアプライすることを考えてみた方が近道だ。コードはネットにいくらでも転がっている。職場にプログラミングができる先輩がいるのであれば、先輩のプログラムを拝借して自分用にカスタマイズしてみるのである。この方法は効果バツグンである。

なぜなら役に立つプログラムを作成するという本来の目的を達成するのみならず、先達の知恵を吸収することができるからである。分からないコードもよくよく眺めてみれば、どんな処理を行うものか見えてくるものだ。何事も「守・破・離」のプロセスで上達する。先達の積み重ねをより深く学ぶこと(守!)が上手くなる秘訣である。




サーチャーのためのプログラミング概論2 [サーチャー]

転職してから1.5ヶ月が過ぎようとしている。新たな職場では「SAS」の修行に励んでいる。SASとは世界最高峰と言われている統計プログラミング言語である。金融データの分析をやろうとするとSASが凄まじい威力を発揮する。

SASは単にデータを入力すれば統計量が出力されるだけのシステムではない。SASの優れているところは柔軟性に富むデータ加工機能にある。SQLを使うまでもなくデータをマージしたり分離したりできる。しかもギガバイト級のデータであっても今のマシンスペックであれば比較的短時間で処理できてしまうのだ。実に驚くべきソフトである。だた、このソフト、高機能だけあってちょっとお高い。数万円/ライセンスぐらいするらしい。

SASをはじめとするプログラミング技術の上達のコツを語るとすれば、まずは「効率性」を追求する姿勢ということになるだろう。Excelなどで繰り返しの単純作業(何度もコピペするとか)をやっているときなんか反吐が出そうになる。そういうときこそ、ちょっとコーディングしてみるか!というチャンスとなる。どうすれば効率的に処理できるかを考えて、コーディングしてマシンに処理してもらえばよい。しかも、一度プログラムを作ると後で何度でも利用できる。

サーチャーの方はプログラミングはあんまり・・・という人が多いように思う。だが、マップなどの分析をやろうとするとどうしてもデータ加工の必要が生じるので、プログラム技術を習得した方が有利だ。それに、STNやDialogの出力結果をCSV形式に加工したりできれば分析の幅が広がるというものだ。ここまでくれば、RでもJMPでも好きなソフトを使って思うがままにマイニングを楽しめるようになるのである。



かんたんプログラミング Excel2003 VBA 基礎編

かんたんプログラミング Excel2003 VBA 基礎編

  • 作者: 大村 あつし
  • 出版社/メーカー: 技術評論社
  • 発売日: 2004/02
  • メディア: 単行本




Rによるデータサイエンス - データ解析の基礎から最新手法まで

Rによるデータサイエンス - データ解析の基礎から最新手法まで

  • 作者: 金 明哲
  • 出版社/メーカー: 森北出版
  • 発売日: 2007/10/13
  • メディア: 単行本(ソフトカバー)



サーチャーのためのプログラミング概論 [サーチャー]

つい数ヶ月前まで特許調査の仕事をしていた。一般にサーチャーという職種であった。サーチャーとは文字通り必要な情報を探すことを職務にしている人のことである。サーチャーはたくさんのデータベースを検索して得られた情報を整理整頓して顧客に渡すことをミッションとしている。なので、サーチャーに求めらる基礎的なスキルはデータベースの知識と上手に検索できることである。

というわけで、プログラミングの能力はサーチャーにとっては必須とは言えない。プログラムができなくてもサーチの精度には全く関係ないと言っていいだろう。適切なデータベースの選択と分類やキーワードの選定がなによりも重要である。だが、ちょっぴり勇気を出してプログラミング技術を習得するとほんの少し世界が変わる。

私は当時の上司から「キミはまだ若いんだからプログラミングぐらいやったらどうかね?」と言われて、25歳の頃からプログラミングの勉強を開始した。開始したもののしばらくは全く身につく気配も無く、正直言って途方にくれた。まず勉強したのは「Perl」。初心者用の本を読んで書いてあるとおりにコーディングをして実行するというサイクルを繰り返してみるも自分でオリジナルなコードを書くことができなかった。自分には合ってないのではないかと思い、落胆した。

しばらく「Perl」を勉強してから、どうせなら資格も一緒にとろうと「基本情報技術者」取得を決意。「Perl」は試験科目ではないので「Java」に変更。相変わらず上達する気配もないままにどうにかテキスト3冊を読了。苦し紛れに勉強だけは続けて「基本情報技術者」に2度目の受験で合格を果たす。しかし、そんな状況になってもオリジナルなコードを書けるレベルにはなっていなかった。

状況が変わったのは、当時の上司に「こういう処理をやれ」と言われて、それはとてもとても人手ではできない代物だった。これはどうにもこうにもプログラムをやるしかないというわけで、インターネットで情報収集しながら試行錯誤(バグとの戦い)しつつ、なんとかコードを完成させた。これが初めてオリジナルのプログラムを作ったという成功体験だった。プログラムが正常に動いた時は本当に何にも替えがたい感動があった。プログラムというのは教科書だけじゃダメで実践で使った方が上達するということをこの経験から学んだ。

その後は、いろいろなプログラムを作った。ほとんどがSTNの出力データをCSVに加工するという単純なプログラムである。だが、プログラムというのは一度作ってしまうと煩わしいルーチン作業から開放される。「考える」という人間しかできない作業に集中できるようになるのである。プログラムを身に着けるまではそれなりに時間がかかるが、一度コツを覚えてしまえば忘れることはない。長い目で見たら得なんだろうと思う。

最後にサーチャーにオススメなプログラミング言語を書いておく。

1.Excel VBA
ほとんどのサーチャーはExcelを使っているように思う。VBAまでいかなくともマクロ記録を覚えるだけでも時間の短縮に繫がるだろう。関数やピボットテーブルを組み合わせればかなりの処理が可能だ。

2.Perl
この言語は本当にあっさりとコードが書ける。変数型を宣言する必要がないなどコードを書くのがとにかく楽ちんである。そして、なんと言っても強力な正規表現が使える。正規表現は一度覚えてしまうと、やみつきになる。ただし、コードが若干へんちくりんになるので人に読ませるような場合には要注意である。

3.Ruby
実は私はRubyは使ったことがない。だが、今から始めるのならきっとこの言語だろうと思う。Perlでもいいのだが、オブジェクト指向をやろうとするとすごくへんちくりんになる。Rubyはそのへんもすんなりと記述できるし、Perlと同等かそれ以上にコーディングが楽ちんらしい。プログラミングを片手間にやるサーチャー用の言語じゃないだろうか。





サーチャー ブログトップ
メッセージを送る

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。

×

この広告は1年以上新しい記事の更新がないブログに表示されております。