TaVision たびじょんメガネ

TaVision たびじょんメガネ Traveling with Vision, Speech and Translation on Reaspberry Pi Zero 『タビジョンめがね』は、海外旅行中に誰もがあったらいいなと思う、外国語の見る、聞く、話す、を助けてくれる眼鏡です。 タビジョンめがねは、RaspberryPi Zeroにカメラ、マイク、スピーカー、ボタンが一体となったデバイスが眼鏡の横に付いています。     ボタンを一回押すと、音声(外国語)を聞き始め、その後それを日本語にして発話してくれます。 二回連続で押した後、自分が日本語で話すと、それを指定した言葉に翻訳して発音してくれます。 最後に長押しすると、カメラで写真を撮り、その画像に写っている言葉を日本語にして読み上げてくれます。 翻訳の設定は、ラズパイ上のPythonプログラムのパラメータを、–speech it-IT (聞取り言語) –trans ja-JP (翻訳先言語)の様に設定しています。(この場合はイタリア語から日本語に翻訳) 言葉の聞き取りには、GoogleのAPIのGoogle Cloud Speechを使い、翻訳にはGoogle Translateを使っています。 画像読み取りには、Google Vision APIを使い、読み上げには音声合成のAquesTalkを使っています。 ラズパイZeroの小さい筐体であれば、眼鏡などに付けるウェアラブル・デバイスができるのでと考えました。そしてそれを旅など外に持っていって、役立つものにしたいと思いました。 ラズパイ、パイソンにはGoogleなどから先進的なAPIが提供されているので、この小さな箱に見る、聞く、話す、そして翻訳するという機能を搭載でき、未来のデバイスが作れたのではないかと思います。 スターウォーズのC3POロボットが、宇宙語など600万の言葉を翻訳すると映画で見ましたが、今回の製作過程でGoogleのAPIが100カ国語以上に既に対応しているのを知って驚き、スターウォーズの世界ももうすぐ現実のものになるのではないかと夢想しました。 実際これで中学生の息子は、もう英語も外国語も勉強しなくて済むね、と間違った方向に理解したコメントをしていました。 (息子が使った試作品のビデオはこちら: https://youtu.be/wRs4yLhLe8Q )     このデバイスは手にすっぽり入る小さい形なので、イヤフォン型やペンダント型にしてオリンピックでの外国人の方への案内に使ったり、ヘルメットに付けて外国の方と工事現場を共にする際のコミュニケーションにも使えると思っています。 今後の訪日観光客の増加や外国訪問の機会が増える事を想定して、デバイスのブラッシュアップ(精度、反応速度の向上や、ローカル環境での動作など)を行っていきたいと思っていますので、宜しくお願い致します! [タビジョンめがね具体的な使い方] それぞれボタンを押した時の、見る、聞く、話す、の使い方例です。     [見る] ボタンを長押し このような中国の鉄道駅の文字を読み取ります。結果を日本語で読み上げますが、コンソール中のTrans:のところに、ハオババスの乗客駅~などが読み取られているのが分かります。 こちらはタイ語でのレストランのメニューです。Tras:のところで、アラビヤティラビヤという魚(?)の焼き物のメニューが人気なのが分かります。 [聞く] ボタンを一回押す [話す] ボタンをダブルプッシュ こちらのビデオで、イタリア旅行で鉄道の駅での会話の例を示しています。駅でイタリアの人に行き方を聞いたり、看板を読み取ったりするシチュエーションを映しています。 https://youtu.be/1bsfeA1oGS8 […]

MagicMinutes 全方位自動議事録作成機

 [MagicMinutes マジックミニッツとは]   会議中に話者が喋った事をテキストにして、自動で議事録を作ってくれるデバイスです。 6つのマイクが付いたラズパイ用ReSpeakerを使って、最大6方向からの位置を特定し、それぞれの座った人の場所毎の会話を、議事録として残せる事です。 記録した会話はリアルタイムで、OLEDミニディプレイに表示し、目で確認する事もできます。 会議中の話を議事録風のフォーマットにして、最後にメールで送付します。 Google Transを使う事により、日本語での会話を英語など外国語に翻訳したミニッツにして送付する事も可能です。   MagicMinutes動画リスト https://www.youtube.com/playlist?list=PLoLx_4WjLoddWX6bn02ehKVL2WZeoJdDg     [マジックミニッツの使い方] 日本語で話して、日本語の議事録を作る場合は、送りたいメールアドレスを指定して、起動します。 $ python3 magicminutes.py –mail xxx@mail.com   日本語に追加して、英語に同時通訳、日英の議事録を作りたい場合は、–trans en-USなどと翻訳言語をセットします。 $ python3 magicminutes.py –trans en-US –mail xxx@mail.com まず、各場所に座った人が「マジック!」と話してみて下さい。その人が話した方向のLEDが緑に光るはずです。 話者の位置が特定出来たら、ボタンを押して、会議の会話を始めます。   会議中の会話が始まると、区切り毎に各言語でリピートしてくれます。 最後に「終了です」などのバイバイワードを話すと、会話を止め、リングが光り出し、取得した発話履歴から議事録を作り出します。   上図のように、話した内容を日本語の議事録にまとめてくれます。どの席の位置の人が喋ったか(前方、後方、右側など)も分かるので、より内容を理解するのに役立ちます。   こちらは英語での議事録。リアルタイムで日本語から英語の議事録を話者の位置(Front, Backなど)も含め作成してくれています。   最後にメールが送られた旨が伝えられると、議事録完了です。メールを確認してみます。   [日本語議事録]                                               [English minutes]     写真を読み込ませれば添付ファイルも付ける事ができます。   実際に動いているMagicMinutes動画はこちら https://www.youtube.com/watch?v=lS0PR6pSRrk&list=PLoLx_4WjLoddWX6bn02ehKVL2WZeoJdDg   [MagicMinutesシステム構成] […]

Mashup Camera – MAカメラ

MAカメラとは 写真を撮ると、その物を分析して、何が写っているか判別します。たとえば、ミーティングルーム、イベント、パーティーなど。 その結果と、これまでの数多くのMashup Awardsの写真をマッチさせ、どれくらいMashup度が高いのか(写っているものがMashup写真に近いのか)を判定してくれる不思議なカメラです! ついでに、MA度合いが低いと、MA風な画像を追加して、AR化した写真を生成してMA度合いを高めます! MAカメラ動画 MAモデルの作り方 FlickrにアップされたMashupがタグされた10万を超える写真をモデル生成に使っています。 これと、ごみや関係ないものの写真100枚ほど(RaspberryJunkPIE)を比較対象画像とし、その両者の判別モデルをクラウド上(GCP)のTensorflowにより生成しておきます。   [Mashup写真(MashupAwards)] Flickr (https://www.flickr.com/photos/100125183@N08/ )からMashup風な写真を数百枚選別し、MashupAwardsというタグ付けを行います。 [ラズベリーとパイ、ごみクズ(RaspberryJunkPIE)] それ以外を判別する為、本物のラズベリーやお菓子のパイの写真を100個、鉄くずなどのジャンクな機械の写真を100個用意し、比較対象にしました。 これらのデータを使い、Tensorflowを使った機械学習トレーニングを行います。この処理はGPUが必要な計算ですので、クラウド(Google Cloud Platform)上で行いました。 そこで出来たモデルをラズパイ上に移植し、撮った写真とモデルとの比較の部分のみラズパイ上で行う事により、少ないリソースでも無理なく判別機をつくれました。 [写真のAR化]     [MAカメラの使い方] 使い方は至って簡単。自分で作ったものの写真を撮るだけ! そうすると、MashupAwards(MA風)、RaspberryJunkPIE(本物のラズベリー、お菓子のパイ、又はジャンク、くず)のどれに該当するかの確率をしゃべってくれます。また結果をTwitterにもアップします。     試しに、昨年の私の写真を読み込ませてみます。しっかり受賞確率95.38%(当たり前ですよね!)と出てきました。   この解析の精度を確かめるために、こんな本物のラズベリーの写真を読み込ませると、ちゃんと98.72%の確率で、RaspberryかPieだと出してくれました。   2018年のSemi/Finalステージに参加できたら、そこで実際に確かめてみたいと思います! こちらは撮って、結果を喋っている動画です。   [MAカメラのシステム構成] ハードウェア: RaspberryPi 3B USBカメラ スピーカー スイッチ、LEDなど USBバッテリー 紙のお弁当箱などのケースなど   紙製のケースに入ったカメラ本体に、USBカメラ、スピーカー、ボタンなどが付いています。   中には、マイク、カメラがついたラズパイとバッテリーが入っています。 スピーカーは外に出ていて、大音量で結果を教えてくれます。   全体のシステム構成はこのようになっています。 システム構成図   ソフトウェア: Python […]